2024-04

隧道试穿:挖掘时空隧道,实现高质量视频虚拟试穿

分类: 计算机视觉和模式识别

作者: Zhengze Xu, Mengting Chen, Zhao Wang, Linyu Xing, Zhonghua Zhai, Nong Sang, Jinsong Lan, Shuai Xiao, Changxin Gao

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17571v1

摘要: 视频试穿是一项具有挑战性的任务,在之前的作品中尚未得到很好的解决。主要障碍在于保留服装的细节并同时建模连贯的运动。面对这些困难,我们通过提出一个名为“隧道试穿”的基于扩散的框架来解决视频试穿问题。核心思想是在输入视频中挖掘一条“焦点隧道”,在服装区域周围提供特写镜头。我们放大隧道中的区域,以更好地保留衣服的精细细节。为了生成连贯的运动,我们首先利用卡尔曼滤波器在焦点隧道中构建平滑裁剪,并将隧道的位置嵌入注入到注意层中,以提高生成视频的连续性。此外,我们开发了一个环境编码器来提取隧道外的上下文信息作为补充线索。借助这些技术,Tunnel Try-on 保留了服装的精细细节,合成了稳定流畅的视频。 Tunnel Try-on展示了显着的进步,可以说是视频虚拟试衣商业级应用的首次尝试。

MaPa:文本驱动的 3D 形状真实感材质绘画

分类: 计算机视觉和模式识别

作者: Shangzhan Zhang, Sida Peng, Tao Xu, Yuanbo Yang, Tianrun Chen, Nan Xue, Yujun Shen, Hujun Bao, Ruizhen Hu, Xiaowei Zhou

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17569v1

摘要: 本文旨在从文本描述生成 3D 网格材料。与合成纹理图的现有方法不同,我们建议生成分段程序材质图作为外观表示,它支持高质量渲染并在编辑方面提供很大的灵活性。我们建议利用预先训练的 2D 扩散模型作为连接文本和材料图的桥梁,而不是依赖广泛的配对数据(即具有材料图和相应文本描述的 3D 网格)来训练材料图生成模型。具体来说,我们的方法将形状分解为一组分段,并设计分段控制的扩散模型来合成与网格部分对齐的 2D 图像。基于生成的图像,我们初始化材质图的参数,并通过可微分渲染模块对其进行微调,以生成符合文本描述的材质。大量的实验证明了我们的框架在真实感、分辨率和可编辑性方面比现有方法具有优越的性能。项目页面:https://zhanghe3z.github.io/MaPa/

TextGaze:使用自然语言进行注视控制的面部生成

分类: 计算机视觉和模式识别

作者: Hengfei Wang, Zhongqun Zhang, Yihua Cheng, Hyung Jin Chang

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17486v1

摘要: 生成具有特定注视信息的人脸图像引起了相当多的关注。现有方法通常直接输入注视值来生成人脸,这是不自然的,并且需要带注释的注视数据集进行训练,从而限制了其应用。在本文中,我们提出了一种新颖的注视可控面部生成任务。我们的方法输入描述人类凝视和头部行为的文本描述,并生成相应的面部图像。我们的工作首先引入了一个凝视文本数据集,其中包含超过 90k 的文本描述,涵盖凝视和头部姿势的密集分布。我们进一步提出了一种注视可控的文本到面部方法。我们的方法包含一个草图条件的面部扩散模块和一个基于模型的草图扩散模块。我们根据面部标志和眼睛分割图定义面部草图。人脸扩散模块从人脸草图生成人脸图像,草图扩散模块采用3D人脸模型从文本描述生成人脸草图。 FFHQ 数据集上的实验表明了我们方法的有效性。我们将发布我们的数据集和代码以供未来研究。

用于辐射传输的一致二阶矩方法和可扩展线性求解器

分类: 数值分析, 数值分析

作者: Samuel Olivier, Ben S. Southworth, James S. Warsa, HyeongKae Park

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17473v1

摘要: 开发的二阶矩方法 (SMM) 与离散坐标(或 \Sn)输运方程的不连续伽辽金 (DG) 空间离散化一致。低阶 (LO) 扩散方程组采用完全一致的 \Pone、局部不连续伽辽金 (LDG) 和内罚 (IP) 方法进行离散化。离散残差方法用于导出 SMM 校正项,使每个 LO 系统与高阶 (HO) 离散化保持一致。我们证明,一致的方法比独立离散 LO 系统更准确,并且具有更好的解决方案质量,它们保留了扩散极限,并且 LDG 和 IP 一致的 SMM 可以在具有挑战性的多材料基准问题上并行扩展解决。

多视图图像提示多视图扩散以改进 3D 生成

分类: 计算机视觉和模式识别

作者: Seungwook Kim, Yichun Shi, Kejie Li, Minsu Cho, Peng Wang

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17419v1

摘要: 与单独使用文本提示相比,使用图像作为 3D 生成提示表现出特别强大的性能,因为图像为 3D 生成过程提供了更直观的指导。在这项工作中,我们深入研究了使用多个图像提示(而不是单个图像提示)进行 3D 生成的潜力。具体来说,我们基于 ImageDream(一种新颖的图像提示多视图扩散模型)构建,以支持多视图图像作为输入提示。我们的方法被称为 MultiImageDream,揭示了根据各种定量评估指标和定性评估,从单图像提示过渡到多图像提示可以增强多视图和 3D 对象生成的性能。这一进步无需微调预训练的 ImageDream 多视图扩散模型即可实现。

MV-VTON:使用扩散模型的多视图虚拟试戴

分类: 计算机视觉和模式识别

作者: Haoyu Wang, Zhilu Zhang, Donglin Di, Shiliang Zhang, Wangmeng Zuo

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17364v1

摘要: 基于图像的虚拟试穿的目标是生成目标人自然地穿着给定服装的图像。然而,大多数现有方法仅关注使用正面服装的正面试穿。当衣服和人的视角明显不一致时,特别是当人的视角是非正面时,结果并不令人满意。为了应对这一挑战,我们引入了多视图虚拟试穿(MV-VTON),其目的是使用给定的衣服从多个视图重建一个人的着装结果。一方面,考虑到单视图衣服为 MV-VTON 提供的信息不足,我们改为使用两个图像,即衣服的正面和背面视图,以尽可能包含完整的视图。另一方面,我们采用了表现出优越能力的扩散模型来执行我们的 MV-VTON。特别是,我们提出了一种视图自适应选择方法,其中硬选择和软选择分别应用于全局和局部服装特征提取。这确保了服装特征大致适合人的视图。随后,我们建议使用联合注意力块来对齐和融合服装特征与人物特征。此外,我们还收集了一个 MV-VTON 数据集,即多视图服装(MVG),其中每个人都有多张具有不同视图和姿势的照片。实验表明,该方法不仅在使用我们的 MVG 数据集的 MV-VTON 任务上取得了最先进的结果,而且在使用 VITON-HD 和 DressCode 数据集的正面虚拟试穿任务上也具有优越性。代码和数据集将在 https://github.com/hywang2002/MV-VTON 公开发布。

使用条件扩散模型的同时三模态医学图像融合和超分辨率

分类: 图像和视频处理, 计算机视觉和模式识别

作者: Yushen Xu, Xiaosong Li, Yuchan Jie, Haishu Tan

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17357v1

摘要: 在临床实践中,与现有的双模态技术相比,三模态医学图像融合可以提供更全面的病变视图,帮助医生评估疾病的形状、位置和生物活性。然而,由于成像设备的限制以及对患者安全的考虑,医学图像的质量通常受到限制,导致融合性能次优,影响医生图像分析的深度。因此,迫切需要一种既能增强图像分辨率又能集成多模态信息的技术。尽管当前的图像处理方法可以有效地单独解决图像融合和超分辨率问题,但同时解决这两个问题仍然极具挑战性。在本文中,我们提出了TFS-Diff,一种同时实现三模态医学图像融合和超分辨率的模型。特别地,TFS-Diff 基于随机迭代去噪过程的扩散模型生成。我们还开发了一个简单的目标函数和提出的融合超分辨率损失,有效评估融合中的不确定性并确保优化过程的稳定性。提出通道注意力模块,有效整合来自不同模态的临床诊断关键信息,避免多次图像处理造成的信息丢失。对哈佛公共数据集进行的大量实验表明,TFS-Diff 在定量和视觉评估方面都显着超越了现有的最先进方法。源代码将在 GitHub 上提供。

节拍器:通过局部序列对齐追踪诗意韵律的变化

分类: 计算和语言

作者: Ben Nagy, Artjoms Šeļa, Mirella De Sisto, Petr Plecháč

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17337v1

摘要: 所有诗歌形式都来自某个地方。韵律模板可以被几代人复制,被个人改变,从外国传统中引入,或者在语言进化的压力下发生根本性的改变。然而,众所周知,这些关系很难跨语言和跨时代追踪。本文介绍了一种使用局部序列比对检测诗歌结构相似性的无监督方法。该方法依赖于使用四个字母的字母表将诗歌文本编码为韵律特征字符串;然后将这些序列进行对齐,以根据加权符号(错误)匹配得出距离度量。局部对齐允许诗歌根据其潜在韵律模式的新兴属性进行聚类。我们根据强大的基线评估了韵律识别任务的方法性能,并使用三个简短的案例研究展示了其跨语言和历史研究的潜力:1)古典拉丁语中定量韵律的突变,2)文艺复兴时期十六音节的欧洲传播,以及3 )18--19世纪捷克、德国和俄罗斯现代米的比较排列。我们以具有开放许可证的 Python 包的形式发布了该算法的实现。

Trinity Detector:用于扩散生成图像检测的基于文本辅助和注意机制的光谱融合

分类: 计算机视觉和模式识别

作者: Jiawei Song, Dengpan Ye, Yunming Zhang

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17254v1

摘要: 以文本到图像生成为代表的人工智能生成内容(AIGC)技术导致了深度伪造的恶意使用,引发了人们对多媒体内容可信度的担忧。将传统的伪造检测方法适应扩散模型证明具有挑战性。因此,本文提出了一种专门为扩散模型设计的伪造检测方法,称为 Trinity Detector。 Trinity Detector 通过 CLIP 编码器合并粗粒度文本特征,将它们与像素域中的细粒度伪影相一致地集成,以实现全面的多模态检测。为了提高对扩散生成的图像特征的敏感性,设计了多光谱通道注意融合单元(MCAF),通过不同频带的自适应融合来提取光谱不一致性,并进一步集成两种模态的空间共现。广泛的实验验证了我们的 Trinity Detector 方法优于几种最先进的方法,我们的性能在所有数据集上都具有竞争力,并且在扩散数据集中的可转移性提高了高达 17.6%。

ObjectAdd:通过免训练的扩散修改方式将对象添加到图像中

分类: 计算机视觉和模式识别

作者: Ziyue Zhang, Mingbao Lin, Rongrong Ji

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17230v1

摘要: 我们引入了 ObjectAdd,一种无需训练的扩散修改方法,可以将用户期望的对象添加到用户指定的区域中。 ObjectAdd 的动机源于:首先,在一个提示中描述所有内容可能很困难,其次,用户经常需要将对象添加到生成的图像中。为了适应现实世界,我们的ObjectAdd通过以下技术创新在添加对象后保持准确的图像一致性:(1)嵌入级串联以确保正确的文本嵌入合并; (2)对象驱动的布局控制,具有潜在和注意力注入,以确保对象访问用户指定的区域; (3) 以注意力重新聚焦和对象扩展的方式提示图像修复,以确保图像的其余部分保持不变。通过文本提示图像,我们的ObjectAdd允许用户指定一个框和一个对象,并实现:(1)在框区域内添加对象; (2) 框外区域的准确内容; (3) 两个区域之间的完美融合

Make-it-Real:释放大型多模态模型使用真实材质绘制 3D 对象的能力

分类: 计算机视觉和模式识别, 人工智能, 计算和语言

作者: Ye Fang, Zeyi Sun, Tong Wu, Jiaqi Wang, Ziwei Liu, Gordon Wetzstein, Dahua Lin

发布时间: 2024-04-25

链接: http://arxiv.org/abs/2404.16829v1

摘要: 物理真实材质对于在各种应用和照明条件下增强 3D 资产的真实感至关重要。然而,现有的 3D 资产和生成模型通常缺乏真实的材料属性。使用图形软件手动分配材料是一项乏味且耗时的任务。在本文中,我们利用多模态大型语言模型(MLLM)的进步,特别是 GPT-4V,提出一种新颖的方法,Make-it-Real:1)我们证明 GPT-4V 可以有效地识别和描述材料,从而允许建设详细的材料库。 2)利用视觉提示和分层文本提示的组合,GPT-4V 可以精确识别材料并将其与 3D 对象的相应组件对齐。 3)然后根据原始漫反射贴图,精心应用正确匹配的材质作为新SVBRDF材质生成的参考,显着增强其视觉真实性。 Make-it-Real 提供了与 3D 内容创建工作流程的简化集成,展示了其作为 3D 资产开发人员的重要工具的实用性。

ConsolidatedID:具有多模式细粒度身份保护的肖像生成

分类: 计算机视觉和模式识别, 人工智能

作者: Jiehui Huang, Xiao Dong, Wenhui Song, Hanhui Li, Jun Zhou, Yuhao Cheng, Shutao Liao, Long Chen, Yiqiang Yan, Shengcai Liao, Xiaodan Liang

发布时间: 2024-04-25

链接: http://arxiv.org/abs/2404.16771v1

摘要: 基于扩散的技术已经取得了重大进展,特别是在个性化和定制的面部生成方面。然而,现有方法在实现高保真和详细的身份(ID)一致性方面面临挑战,这主要是由于对面部区域的细粒度控制不足,并且缺乏充分考虑复杂的面部细节和整体面部的全面的身份保存策略。为了解决这些限制,我们引入了 ConcientID,这是一种创新方法,专门用于在细粒度多模态面部提示下生成多样化身份保留的肖像,仅利用单个参考图像。 ConsolidatedID 包含两个关键组件:一个多模态面部提示生成器,它结合了面部特征、相应的面部描述和整体面部上下文,以提高面部细节的精确度;以及通过面部注意力定位策略优化的 ID 保存网络,旨在保持 ID 一致性在面部区域。这些组件通过引入来自面部区域的细粒度多模态 ID 信息,显着提高了 ID 保存的准确性。为了促进ConstantID的训练,我们提出了一个细粒度的肖像数据集FGID,其中包含超过500,000张面部图像,比现有的公共面部数据集提供了更大的多样性和全面性。 % 例如 LAION-Face、CelebA、FFHQ 和 SFHQ。实验结果证实,我们的 ConcientID 在个性化面部生成方面实现了卓越的精度和多样性,超越了 MyStyle 数据集中的现有方法。此外,虽然ConstantID引入了更多的多模态ID信息,但它在生成过程中保持了快速的推理速度。

MuseumMaker:持续的风格定制,不会发生灾难性的遗忘

分类: 计算机视觉和模式识别

作者: Chenxi Liu, Gan Sun, Wenqi Liang, Jiahua Dong, Can Qin, Yang Cong

发布时间: 2024-04-25

链接: http://arxiv.org/abs/2404.16612v1

摘要: 具有适当文本提示的预训练大型文本到图像(T2I)模型引起了定制图像生成领域日益增长的兴趣。然而,灾难性的遗忘问题使得很难持续合成新的用户提供的样式,同时在学习的样式中保留令人满意的结果。在本文中,我们提出了MuseumMaker,一种通过永无休止地遵循一组定制风格来合成图像的方法,并将这些创造性的艺术作品逐渐积累为博物馆。当面对新的定制风格时,我们开发了风格蒸馏损失模块,将整个数据集的风格转移到图像的生成中。它可以最大限度地减少由图像内容引起的学习偏差,并解决由少样本图像引起的灾难性过拟合问题。为了解决过去学习风格中的灾难性遗忘问题,我们为共享 LoRA 模块设计了一种双重正则化来优化模型更新的方向,这可以分别从权重和特征方面对扩散模型进行正则化。同时,通过任务明智的 token 学习模块学习与这种新风格相对应的独特 token 嵌入,这可以在 LoRA 参数数量的限制下保留过去风格的历史知识。当任何新的用户提供的样式出现时,我们的 MuseumMaker 可以捕捉新样式的细微差别,同时保留所学样式的细节。不同风格数据集上的实验结果验证了我们提出的 MuseumMaker 方法的有效性,展示了其在各种场景下的稳健性和多功能性。

使用扩散模型进行少镜头图像合成的条件分布建模

分类: 计算机视觉和模式识别

作者: Parul Gupta, Munawar Hayat, Abhinav Dhall, Thanh-Toan Do

发布时间: 2024-04-25

链接: http://arxiv.org/abs/2404.16556v1

摘要: 少镜头图像合成需要仅使用少量示例图像来生成新颖类别的多样化且逼真的图像。虽然最近在这个方向上的多项努力取得了令人印象深刻的成果,但现有方法仅依赖于测试时可用的少数新样本来生成新图像,这限制了生成图像的多样性。为了克服这一限制,我们提出了条件分布建模(CDM)——一种有效利用扩散模型进行少样本图像生成的框架。通过对用于调节扩散过程的潜在空间的分布进行建模,CDM 利用训练数据的学习统计数据来更好地近似未见过的类分布,从而消除由于数量有限的少数样本而产生的偏差。同时,我们设计了一种新颖的基于反演的优化策略,进一步改进了近似的未见类分布,并确保生成的样本对未见类的保真度。四个基准数据集的实验结果证明了我们提出的 CDM 对于少样本生成的有效性。

TI2V-Zero:文本到视频扩散模型的零样本图像调节

分类: 计算机视觉和模式识别

作者: Haomiao Ni, Bernhard Egger, Suhas Lohit, Anoop Cherian, Ye Wang, Toshiaki Koike-Akino, Sharon X. Huang, Tim K. Marks

发布时间: 2024-04-25

链接: http://arxiv.org/abs/2404.16306v1

摘要: 文本条件图像到视频生成(TI2V)旨在从给定图像(例如,女人的照片)和文本描述(例如,“女人正在喝水”)开始合成逼真的视频。现有的 TI2V 框架通常需要对视频文本数据集以及文本和图像调节的特定模型设计进行昂贵的培训。在本文中,我们提出了 TI2V-Zero,这是一种零样本、免调整的方法,使预训练的文本到视频 (T2V) 扩散模型能够以提供的图像为条件,从而无需任何优化、精细化即可生成 TI2V。调整,或引入外部模块。我们的方法利用预训练的 T2V 扩散基础模型作为生成先验。为了使用额外的图像输入指导视频生成,我们提出了一种“重复和滑动”策略,该策略可以调节反向降噪过程,从而允许冻结扩散模型从提供的图像开始逐帧合成视频。为了确保时间连续性,我们采用 DDPM 反转策略来初始化每个新合成帧的高斯噪声,并采用重采样技术来帮助保留视觉细节。我们对特定领域和开放域数据集进行了全面的实验,其中 TI2V-Zero 始终优于最新的开放域 TI2V 模型。此外,我们还表明,当提供更多图像时,T​​I2V-Zero 可以无缝扩展到其他任务,例如视频填充和预测。其自回归设计还支持长视频生成。

ID-Animator:零镜头身份保护人类视频生成

分类: 计算机视觉和模式识别

作者: Xuanhua He, Quande Liu, Shengju Qian, Xin Wang, Tao Hu, Ke Cao, Keyu Yan, Man Zhou, Jie Zhang

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.15275v1

摘要: 生成具有指定身份的高保真人类视频已引起内容生成社区的广泛关注。然而,现有技术很难在训练效率和身份保存之间取得平衡,要么需要繁琐的逐案微调,要么通常会在视频生成过程中丢失身份细节。在这项研究中,我们提出了 ID-Animator,这是一种零镜头人类视频生成方法,可以在给定单个参考面部图像的情况下执行个性化视频生成,而无需进一步训练。 ID-Animator 继承了现有的基于扩散的视频生成主干,并带有面部适配器,可对来自可学习面部潜在查询的 ID 相关嵌入进行编码。为了促进视频生成中身份信息的提取,我们引入了一种面向 ID 的数据集构建管道,该管道结合了从构建的面部图像池中解耦的人类属性和动作字幕技术。基于该流程,进一步设计了一种随机人脸参考训练方法,以从参考图像中精确捕获与 ID 相关的嵌入,从而提高我们的模型用于 ID 特定视频生成的保真度和泛化能力。大量的实验证明了 ID-Animator 在生成个性化人类视频方面比以前的模型具有优越性。此外,我们的方法与流行的预训练T2V模型(如animatediff和各种社区骨干模型)高度兼容,在高度需要身份保存的视频生成的现实世界应用中显示出高度的可扩展性。我们的代码和检查点将在 https://github.com/ID-Animator/ID-Animator 发布。

从部分到整体:可控人体图像生成的统一参考框架

分类: 计算机视觉和模式识别

作者: Zehuan Huang, Hongxing Fan, Lipeng Wang, Lu Sheng

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.15267v1

摘要: 可控人类图像生成的最新进展已经导致使用结构信号(例如姿势、深度)或面部外观的零样本生成。然而,生成根据人类外表的多个部分调节的人类图像仍然具有挑战性。为了解决这个问题,我们引入了 Parts2Whole,这是一个新颖的框架,旨在从多个参考图像(包括姿势图像和人体外观的各个方面)生成定制肖像。为了实现这一目标,我们首先开发一种语义感知的外观编码器来保留不同人体部位的细节,该编码器根据每个图像的文本标签将其处理为一系列多尺度特征图而不是一个图像标记,从而保留图像维度。其次,我们的框架通过共享的自注意力机制支持多图像条件生成,该机制在扩散过程中跨参考和目标特征运行。我们通过结合参考人类图像中的掩模信息来增强普通注意力机制,从而允许精确选择任何部分。大量的实验证明了我们的方法相对于现有替代方案的优越性,为多部分可控人体图像定制提供了先进的功能。请参阅我们的项目页面:https://huangzh.github.io/Parts2Whole/。

CutDiffusion:一种简单、快速、廉价且强的扩散外推方法

分类: 计算机视觉和模式识别, 人工智能

作者: Mingbao Lin, Zhihang Lin, Wengyi Zhan, Liujuan Cao, Rongrong Ji

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.15141v1

摘要: 转换大型预训练的低分辨率扩散模型以满足更高分辨率的需求,即扩散外推,可显着提高扩散适应性。我们提出免调整的 CutDiffusion,旨在简化和加速扩散外推过程,使其更加经济实惠并提高性能。 CutDiffusion 遵循现有的逐块外推法,但将标准的块扩散过程切割为专注于全面结构去噪的初始阶段和致力于特定细节细化的后续阶段。综合实验凸显了CutDiffusion的众多强大优势:(1)简单的方法构建,无需第三方参与即可实现简洁的高分辨率扩散过程; (2)通过单步高分辨率扩散过程实现快速推理速度,并且需要更少的推理补丁; (3)在综合结构去噪过程中,由于分片推理和更少的分片,GPU成本低廉; (4)强大的生成性能,源于对具体细节细化的重视。

驯服用于角色控制的扩散概率模型

分类: 图形, 人工智能, 计算机视觉和模式识别

作者: Rui Chen, Mingyi Shi, Shaoli Huang, Ping Tan, Taku Komura, Xuelin Chen

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.15121v1

摘要: 我们提出了一种新颖的角色控制框架,该框架有效地利用运动扩散概率模型来生成高质量和多样化的角色动画,实时响应用户提供的各种动态控制信号。我们方法的核心是基于变压器的条件自回归运动扩散模型(CAMDM),它将角色的历史运动作为输入,并可以根据高级、粗略的用户控制生成一系列不同的潜在未来运动。为了满足实时控制器对多样性、可控性和计算效率的要求,我们结合了几个关键的算法设计。其中包括单独的条件标记化、对过去运动的无分类器指导以及启发式未来轨迹扩展,所有这些都旨在解决与驯服角色控制的运动扩散概率模型相关的挑战。因此,我们的工作代表了第一个能够基于用户交互控制实时生成高质量、多样化角色动画的模型,支持使用单个统一模型以多种风格制作角色动画。我们在多种运动技能上评估我们的方法,证明我们的方法相对于现有角色控制器的优点。项目页面和源代码:https://aiganimation.github.io/CAMDM/

OccGen:自动驾驶的生成式多模态 3D 占用预测

分类: 计算机视觉和模式识别

作者: Guoqing Wang, Zhongdao Wang, Pin Tang, Jilai Zheng, Xiangxuan Ren, Bailan Feng, Chao Ma

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.15014v1

摘要: 现有的 3D 语义占用预测解决方案通常将任务视为一次性 3D 体素分割感知问题。这些判别方法侧重于一步学习输入和占用图之间的映射,缺乏逐步细化占用图的能力和合理的场景想象能力来完成某处的局部区域。在本文中,我们介绍了 OccGen,这是一种简单但功能强大的生成感知模型,用于 3D 语义占用预测任务。 OccGen 采用“噪声到占用”生成范例,通过预测和消除源自随机高斯分布的噪声来逐步推断和细化占用图。 OccGen 由两个主要组件组成:能够处理多模态输入的条件编码器,以及使用多模态特征作为条件应用扩散去噪的渐进细化解码器。该生成流程的一个关键见解是,扩散去噪过程自然能够对密集 3D 占用图的从粗到细的细化进行建模,从而产生更详细的预测。对多个占用基准进行的广泛实验证明了所提出的方法与最先进的方法相比的有效性。例如,在多模态、仅 LiDAR 和仅相机设置下,OccGen 在 nuScenes-Occupancy 数据集上的 mIoU 分别相对提高了 9.5%、6.3% 和 13.3%。此外,作为一种生成感知模型,OccGen 表现出了判别模型无法实现的理想特性,例如在多步骤预测的同时提供不确定性估计。

音乐风格转移与扩散模型

分类: 声音, 人工智能

作者: Hong Huang, Yuyi Wang, Luyao Li, Jun Lin

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.14771v1

摘要: 以往关于音乐风格迁移的研究主要集中在一对一的风格转换上,研究相对有限。在考虑多种风格之间的转换时,以前的方法需要设计多种模式来理清音乐的复杂风格,导致计算成本巨大且音频生成缓慢。现有的音乐风格转换方法生成带有伪影的频谱图,导致生成的音频中出现明显的噪声。为了解决这些问题,本研究提出了一种基于扩散模型(DM)的音乐风格迁移框架,并使用基于频谱图的方法来实现多对多音乐风格迁移。 GuideDiff 方法用于将频谱图恢复为高保真音频,加快音频生成速度并减少生成音频中的噪声。实验结果表明,与基线相比,我们的模型在多模式音乐风格传输方面具有良好的性能,并且可以在消费级 GPU 上实时生成高质量的音频。

通过免培训的面罩引导扩散增强视觉控制的及时跟随

分类: 计算机视觉和模式识别

作者: Hongyu Chen, Yiqi Gao, Min Zhou, Peng Wang, Xubin Li, Tiezheng Ge, Bo Zheng

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.14768v1

摘要: 最近,将视觉控制集成到文本到图像(T2I)模型中,例如 ControlNet 方法,由于更精细的控制能力而受到了极大的关注。尽管各种免训练方法努力增强 T2I 模型中的提示跟随能力,但视觉控制问题仍然很少研究,特别是在视觉控制与文本提示不一致的情况下。在本文中,我们解决了“视觉控制提示跟随”的挑战,并提出了一种名为掩模引导提示跟随(MGPF)的免训练方法。对象掩模被引入视觉控制和提示的不同对齐和未对齐部分。同时,被称为 Masked ControlNet 的网络被设计为利用这些对象掩模在未对齐的视觉控制区域中生成对象。此外,为了改进属性匹配,设计了一种简单而有效的损失来将属性的注意图与对象对齐。通过全面的定量和定性实验验证了 MGPF 的有效性和优越性。

G-HOP:用于交互重建和抓取合成的生成手部物体先验

分类: 计算机视觉和模式识别

作者: Yufei Ye, Abhinav Gupta, Kris Kitani, Shubham Tulsiani

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.12383v1

摘要: 我们提出了 G-HOP,一种基于去噪扩散的手-物体交互生成先验,允许根据物体类别对 3D 物体和人手进行建模。为了学习可以捕获这种联合分布的 3D 空间扩散模型,我们通过骨骼距离场来表示人手,以获得与对象的(潜在)有符号距离场对齐的表示。我们证明,这种手部物体先验可以作为通用指导来促进其他任务,例如从交互剪辑中进行重建和人类抓取合成。我们相信,我们的模型是通过聚合跨越 155 个类别的 7 个不同的现实世界交互数据集进行训练的,代表了第一种允许联合生成手和物体的方法。我们的实证评估证明了这种联合先验在基于视频的重建和人类掌握合成中的优势,优于当前特定于任务的基线。项目网站:https://judyye.github.io/ghop-www

FreeDiff:使用扩散模型进行图像编辑的渐进频率截断

分类: 计算机视觉和模式识别

作者: Wei Wu, Qingnan Fan, Shuai Qin, Hong Gu, Ruoyu Zhao, Antoni B. Chan

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.11895v1

摘要: 由于其卓越的生成能力和用户友好性,使用文本到图像模型的精确图像编辑引起了越来越多的兴趣。然而,此类尝试面临着关键挑战,即预期的精确编辑目标区域与实践中受指南影响的更广泛区域之间的不一致。尽管已经开发出利用注意力机制来完善编辑指导的优秀方法,但这些方法需要通过复杂的网络架构进行修改,并且仅限于特定的编辑任务。在这项工作中,我们从频率角度重新审视扩散过程和失准问题,揭示了由于自然图像的幂律和衰减噪声表,去噪网络主要恢复早期时间步长的低频图像分量从而带来过多的低频信号进行编辑。利用这种洞察力,我们引入了一种新颖的自由微调方法,该方法采用渐进式 $\textbf{Fre}$qu$\textbf{e}$ncy 截断来细化用于通用编辑的 $\textbf{Diff}$usion 模型的指导任务 ($\textbf{FreeDiff}$)。我们的方法在各种编辑任务和不同的图像集上取得了与最先进的方法相当的结果,凸显了其作为图像编辑应用程序中的多功能工具的潜力。

用于交互式图像编辑的惰性扩散变压器

分类: 计算机视觉和模式识别, 人工智能, 图形

作者: Yotam Nitzan, Zongze Wu, Richard Zhang, Eli Shechtman, Daniel Cohen-Or, Taesung Park, Michaël Gharbi

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.12382v1

摘要: 我们引入了一种新颖的扩散变压器 LazyDiffusion,它可以有效地生成部分图像更新。我们的方法针对交互式图像编辑应用程序,在该应用程序中,用户从空白画布或图像开始,使用二进制掩码和文本提示指定一系列本地化图像修改。我们的发电机分两个阶段运行。首先,上下文编码器处理当前画布和用户掩码,以生成适合要生成的区域的紧凑全局上下文。其次,在此背景下,基于扩散的变换器解码器以“惰性”方式合成屏蔽像素,即,它仅生成屏蔽区域。这与以前的作品形成鲜明对比,以前的作品要么重新生成整个画布,浪费时间和计算,要么将处理限制在掩模周围的紧密矩形作物上,完全忽略全局图像上下文。我们的解码器的运行时间随着掩码大小而变化,掩码大小通常很小,而我们的编码器引入的开销可以忽略不计。我们证明,我们的方法在质量和保真度方面与最先进的修复方法具有竞争力,同时为典型的用户交互提供 10 倍的加速,其中编辑蒙版代表图像的 10%。

AniClipart:具有文本到视频先验的剪贴画动画

分类: 计算机视觉和模式识别, 图形

作者: Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.12347v1

摘要: 剪贴画是一种预制的图形艺术形式,提供了一种方便有效的方式来说明视觉内容。将静态剪贴画图像转换为运动序列的传统工作流程既费力又耗时,涉及许多复杂的步骤,如绑定、关键动画和中间处理。文本到视频生成的最新进展在解决这个问题方面具有巨大的潜力。然而,直接应用文本到视频生成模型通常很难保留剪贴画图像的视觉特征或生成卡通风格的动作,导致动画结果不令人满意。在本文中,我们介绍了 AniClipart,这是一个将静态剪贴画图像转换为由文本到视频先验引导的高质量运动序列的系统。为了生成卡通风格且平滑的运动,我们首先定义剪贴画图像关键点上的 B'{e}zier 曲线作为运动正则化的一种形式。然后,我们通过优化视频分数蒸馏采样(VSDS)损失,将关键点的运动轨迹与提供的文本提示对齐,该损失在预训练的文本到视频扩散模型中编码了足够的自然运动知识。通过可微分的 As-Rigid-As-Possible 形状变形算法,我们的方法可以在保持变形刚度的同时进行端到端优化。实验结果表明,所提出的 AniClipart 在文本视频对齐、视觉身份保留和运动一致性方面始终优于现有的图像到视频生成模型。此外,我们还展示了 AniClipart 的多功能性,使其能够生成更广泛的动画格式,例如允许拓扑变化的分层动画。

使用相机视点控制自定义文本到图像的扩散

分类: 计算机视觉和模式识别

作者: Nupur Kumari, Grace Su, Richard Zhang, Taesung Park, Eli Shechtman, Jun-Yan Zhu

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.12333v1

摘要: 模型定制向现有的文本到图像模型引入了新概念,从而能够在新颖的上下文中生成新概念。然而,此类方法缺乏针对对象的精确相机视图控制,并且用户必须诉诸即时工程(例如,添加“顶视图”)来实现粗略视图控制。在这项工作中,我们引入了一项新任务——实现对相机视点的显式控制以进行模型定制。这使我们能够通过文本提示修改各种背景场景中的对象属性,同时将目标相机姿势合并为附加控制。这项新任务在将新概念的多视图图像的 3D 表示与通用的 2D 文本到图像模型合并方面提出了重大挑战。为了弥补这一差距,我们建议根据新对象的渲染的、依赖于视图的特征来调节 2D 扩散过程。在训练过程中,我们联合调整 2D 扩散模块和 3D 特征预测来重建对象的外观和几何形状,同时减少对输入多视图图像的过度拟合。我们的方法在遵循输入文本提示和对象的相机姿势的同时保留自定义对象的身份方面优于现有的图像编辑和模型个性化基线。

StyleBooth:使用多模式指令进行图像样式编辑

分类: 计算机视觉和模式识别

作者: Zhen Han, Chaojie Mao, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.12154v1

摘要: 给定原始图像,图像编辑的目的是生成与所提供的指令一致的图像。挑战在于接受多模态输入作为指令,并且缺乏高质量的训练数据,包括源/目标图像对的关键三元组和多模态(文本和图像)指令。在本文中,我们专注于图像风格编辑并提出了 StyleBooth,这是一种提出图像编辑综合框架和构建高质量风格编辑数据集的可行策略的方法。我们将编码的文本指令和图像样本集成为扩散模型的统一条件,从而能够按照多模态指令编辑原始图像。此外,通过迭代风格去风格调整和编辑以及可用性过滤,StyleBooth 数据集提供了各种风格类别的内容一致的风格化/纯图像对。为了展示 StyleBooth 的灵活性,我们对不同的任务进行了实验,例如基于文本的样式编辑、基于示例的样式编辑和合成样式编辑。结果表明,训练数据的质量和多样性显着增强了在编辑任务中保留内容的能力并提高了生成图像的整体质量。项目页面可以在 https://ali-vilab.github.io/stylebooth-page/ 找到。

采用部分离散扩散过程的草图引导图像修复

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Nakul Sharma, Aditay Tripathi, Anirban Chakraborty, Anand Mishra

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.11949v1

摘要: 在这项工作中,我们研究了草图引导的图像修复任务。与擅长捕获语义细节的自然语言引导图像修复不同,研究相对较少的草图引导修复在指定要修复的对象的形状和姿势方面提供了更大的用户控制。作为此任务的早期解决方案之一,我们引入了一种新颖的部分离散扩散过程(PDDP)。 PDDP 的前向传递破坏了图像的掩模区域,而后向传递则使用我们提出的草图引导双向变换器以手绘草图为条件重建这些掩模区域。所提出的新颖的转换器模块接受两个输入——包含要修复的掩模区域的图像和用于建模反向扩散过程的查询草图。该策略有效地解决了草图和自然图像之间的域差距,从而提高了修复结果的质量。在缺乏特定于此任务的大规模数据集的情况下,我们合成了 MS-COCO 的数据集,以根据文献中的各种有效方法来训练和广泛评估我们提出的框架。定性和定量结果以及用户研究表明,所提出的方法修复了在所提供草图的视觉外观方面适合上下文的现实对象。为了帮助进一步研究,我们已在 https://github.com/vl2g/Sketch-Inpainting 上公开提供我们的代码。

EdgeFusion:设备上文本到图像生成

分类: 机器学习, 人工智能, 计算机视觉和模式识别

作者: Thibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.11925v1

摘要: 文本到图像生成的稳定扩散(SD)的密集计算负担为其实际应用带来了重大障碍。为了应对这一挑战,最近的研究重点是减少采样步骤的方法,例如潜在一致性模型(LCM),以及采用架构优化,包括剪枝和知识蒸馏。与现有方法不同,我们独特地从紧凑型 SD 变体 BK-SDM 开始。我们观察到,使用常用的爬行数据集直接将 LCM 应用于 BK-SDM 会产生不令人满意的结果。它引导我们制定两种策略:(1) 利用领先生成模型中的高质量图像文本对;(2) 设计专为 LCM 量身定制的先进蒸馏流程。通过对量化、分析和设备上部署的深入探索,我们只需两步即可快速生成逼真的文本对齐图像,并且在资源有限的边缘设备上延迟低于一秒。

IntrinsicAnything:学习未知光照下逆渲染的扩散先验

分类: 计算机视觉和模式识别

作者: Xi Chen, Sida Peng, Dongchen Yang, Yuan Liu, Bowen Pan, Chengfei Lv, Xiaowei Zhou

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11593v1

摘要: 本文旨在从未知静态照明条件下拍摄的姿势图像中恢复物体材料。最近的方法通过基于可微分物理的渲染来优化材料参数来解决此任务。然而,由于物体几何形状、材质和环境光照之间的耦合,逆渲染过程中存在固有的模糊性,导致先前的方法无法获得准确的结果。为了克服这个不适定问题,我们的关键思想是使用生成模型先学习材料,以规范优化过程。我们观察到,一般渲染方程可以分为漫反射和镜面反射着色项,从而将材质先验公式化为反照率和镜面反射的扩散模型。由于这种设计,我们的模型可以使用现有的丰富的 3D 对象数据进行训练,并且自然地充当从 RGB 图像恢复材质表示时解决歧义的多功能工具。此外,我们开发了一种从粗到精的训练策略,利用估计的材料来指导扩散模型以满足多视图一致约束,从而获得更稳定和准确的结果。对现实世界和合成数据集的广泛实验表明,我们的方法在材料回收方面实现了最先进的性能。该代码可在 https://zju3dv.github.io/IntrinsicAnything 上获取。

通过具有步骤感知和层感知提示的稳定扩散实现高度真实的艺术风格转移

分类: 计算机视觉和模式识别

作者: Zhanjie Zhang, Quanwei Zhang, Huaizhong Lin, Wei Xing, Juncheng Mo, Shuaicheng Huang, Jinheng Xie, Guangyuan Li, Junsheng Luan, Lei Zhao, Dalong Zhang, Lixia Chen

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11474v1

摘要: 艺术风格迁移旨在将学习到的艺术风格迁移到任意内容图像上,生成艺术风格化图像。现有的基于生成对抗网络的方法无法生成高度逼真的风格化图像,并且总是引入明显的伪影和不和谐的模式。最近,大规模预训练扩散模型开辟了生成高度逼真的艺术风格化图像的新方法。然而,基于扩散模型的方法通常无法很好地保留输入内容图像的内容结构,从而引入一些不期望的内容结构和风格模式。为了解决上述问题,我们提出了一种新颖的基于预训练扩散的艺术风格迁移方法,称为LSAST,该方法可以生成高度逼真的艺术风格化图像,同时很好地保留输入内容图像的内容结构,而不会带来明显的伪影和不和谐的风格模式。具体来说,我们引入了一个Step-aware and Layer-aware Prompt Space,这是一组可学习的提示,它可以从艺术品集合中学习风格信息,并动态调整输入图像的内容结构和风格模式。为了训练我们的提示空间,我们提出了一种新颖的反演方法,称为“Step-ware and Layer-aware Prompt Inversion”,它允许提示空间学习艺术品收藏的风格信息。此外,我们将 ControlNet 的预训练条件分支注入到 LSAST 中,这进一步提高了我们的框架维护内容结构的能力。大量的实验表明,我们提出的方法可以生成比最先进的艺术风格转移方法更高度逼真的艺术风格化图像。

动态版式:通过视频扩散优先使文本栩栩如生

分类: 计算机视觉和模式识别

作者: Zichen Liu, Yihao Meng, Hao Ouyang, Yue Yu, Bolin Zhao, Daniel Cohen-Or, Huamin Qu

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11614v2

摘要: 文本动画作为一种表达媒介,通过将文字与动作相结合来唤起情感、强调意义并构建引人入胜的叙述,将静态交流转化为动态体验。制作具有语义意识的动画面临着巨大的挑战,需要图形设计和动画方面的专业知识。我们提出了一种自动文本动画方案,称为“动态版式”,它结合了两个具有挑战性的任务。它使字母变形以传达语义,并根据用户提示为它们注入充满活力的动作。我们的技术利用矢量图形表示和基于端到端优化的框架。该框架采用神经位移场将字母转换为基本形状并应用每帧运动,鼓励与预期文本概念的一致性。采用形状保存技术和感知损失正则化来保持整个动画过程的易读性和结构完整性。我们展示了我们的方法在各种文本到视频模型中的通用性,并强调了我们的端到端方法相对于基线方法的优越性,基线方法可能包含单独的任务。通过定量和定性评估,我们展示了我们的框架在生成连贯的文本动画方面的有效性,这些动画忠实地解释用户提示,同时保持可读性。我们的代码位于:https://animate-your-word.github.io/demo/。

InFusion:通过从扩散先验学习深度补全来修复 3D 高斯

分类: 计算机视觉和模式识别

作者: Zhiheng Liu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Jie Xiao, Kai Zhu, Nan Xue, Yu Liu, Yujun Shen, Yang Cao

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11613v1

摘要: 3D 高斯最近作为新颖视图合成的有效表示而出现。这项工作研究了它的可编辑性,特别关注修复任务,旨在通过额外的点来补充不完整的 3D 高斯集,以实现视觉和谐的渲染。与 2D 修复相比,3D 高斯修复的关键是找出引入点的渲染相关属性,其优化很大程度上受益于它们的初始 3D 位置。为此,我们建议使用图像条件深度补全模型来指导点初始化,该模型学习根据观察到的图像直接恢复深度图。这样的设计使我们的模型能够以与原始深度对齐的比例填充深度值,并且还可以利用大规模扩散先验的强大概括性。得益于更准确的深度补全,我们的方法(称为 InFusion)在各种复杂场景下以更好的保真度和效率超越了现有的替代方案。我们通过几个实际应用进一步证明了 InFusion 的有效性,例如使用用户特定的纹理进行修复或新颖的对象插入。

MoA:个性化图像生成中主题上下文解开的混合注意力

分类: 计算机视觉和模式识别, 人工智能, 图形

作者: Kuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11565v1

摘要: 我们引入了一种用于文本到图像扩散模型个性化的新架构,创造了混合注意力(MoA)。受到大型语言模型 (LLM) 中使用的专家混合机制的启发,MoA 将生成工作负载分配在两个注意路径之间:个性化分支和非个性化先前分支。 MoA 旨在通过将注意力层固定在先前分支中来保留原始模型的先验,同时通过学习将主题嵌入到先前分支生成的布局和上下文中的个性化分支最小化地干预生成过程。一种新颖的路由机制管理跨这些分支的每一层中的像素分布,以优化个性化和通用内容创建的混合。经过训练后,MoA 可以促进创建高质量、个性化的图像,该图像具有多个主题,其构图和交互与原始模型生成的图像一样多样化。至关重要的是,MoA 增强了模型预先存在的功能与新增强的个性化干预之间的区别,从而提供了以前无法实现的更加清晰的主题上下文控制。项目页面:https://snap-research.github.io/mixture-of-attention

利用卫星深度扩散模型进行四小时雷暴临近预报

分类: 机器学习

作者: Kuai Dai, Xutao Li, Junying Fang, Yunming Ye, Demin Yu, Di Xian, Danyu Qin

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10512v1

摘要: 对流(雷暴)在数小时内发展迅速,破坏性极强,给临近预报带来巨大挑战,给自然和社会造成重大损失。基于人工智能(AI)的方法出现后,对流临近预报得到了快速发展,其性能超越了基于物理的数值天气预报和其他传统方法。但其时效和覆盖范围仍存在很大差距,难以满足灾害应急响应的需要。在这里,我们提出了卫星深度扩散模型(DDMS)来建立基于人工智能的对流临近预报系统。一方面,它利用扩散过程有效模拟对流云复杂的时空演化模式,显着提高预报提前时间。另一方面,它利用对地静止卫星亮温数据,从而实现行星尺度的预报覆盖。经过风云四号A卫星的长期测试和客观验证,我们的系统首次实现了长达4小时的有效对流临近预报,覆盖范围广(约2000万平方公里),精度高,分辨率高(15分钟;4公里)。与现有型号相比,其在对流临近预报方面的性能达到了新的高度。在应用方面,我们的系统运行高效(8分钟预报4小时的对流),可移植性强,可与多颗卫星协作进行全球对流临近预报。此外,我们的结果凸显了扩散模型在对流云预测中的卓越能力,以及在人工智能技术的支持下对地静止卫星数据的重要价值。

使用潜在扩散模型生成反事实轨迹以进行概念发现

分类: 机器学习, 人工智能

作者: Payal Varshney, Adriano Lucieri, Christoph Balada, Andreas Dengel, Sheraz Ahmed

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10356v1

摘要: 可信度是在医学等高风险领域安全应用不透明深度学习模型的主要先决条件。了解决策过程不仅有助于培养信任,还可能揭示以前未知的复杂模型的决策标准,从而推动医学研究的发展。从黑盒模型中发现决策相关概念是一项特别具有挑战性的任务。本研究提出通过基于潜在扩散的反事实轨迹(CDCT)进行概念发现,这是一种利用扩散模型卓越的图像合成能力进行概念发现的新颖的三步框架。第一步,CDCT 使用潜在扩散模型 (LDM) 生成反事实轨迹数据集。该数据集用于使用变分自动编码器 (VAE) 导出分类相关概念的解缠结表示。最后,应用搜索算法来识别解开的潜在空间中的相关概念。将 CDCT 应用于在最大的公共皮肤病变数据集上训练的分类器,不仅揭示了一些偏差的存在,而且还揭示了有意义的生物标志物。此外,CDCT 中生成的反事实显示出比之前建立的最先进方法生成的结果更好的 FID 分数,同时资源效率提高了 12 倍。无监督的概念发现对于可信人工智能的应用以及人类知识在各个领域的进一步发展具有巨大的潜力。 CDCT 代表了朝这个方向又迈出了一步。

使用扩散模型在目标迁移场景下有效生成视觉语言模型的对抗性示例

分类: 计算机视觉和模式识别

作者: Qi Guo, Shanmin Pang, Xiaojun Jia, Qing Guo

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10335v2

摘要: 涉及对抗性示例的基于转移的定向攻击对大型视觉语言模型(VLM)构成重大威胁。然而,由于迭代次数过多,最先进的(SOTA)基于传输的攻击会产生高昂的成本。此外,生成的对抗性示例表现出明显的对抗性噪音,并且在逃避 DiffPure 等防御方法方面的功效有限。为了解决这些问题,受分数匹配的启发,我们引入了 AdvDiffVLM,它利用扩散模型来生成自然的、不受限制的对抗性示例。具体来说,AdvDiffVLM采用自适应集成梯度估计来修改扩散模型反向生成过程中的分数,确保生成的对抗性示例包含自然的对抗性语义,从而具有增强的可迁移性。同时,为了进一步提高对抗性示例的质量,我们采用 GradCAM 引导的 Mask 方法将对抗性语义分散在整个图像中,而不是将它们集中在特定区域。实验结果表明,与现有的基于传输的攻击方法相比,我们的方法实现了 10 倍到 30 倍的加速,同时保持了对抗性示例的卓越质量。此外,生成的对抗性示例具有很强的可移植性,并且针对对抗性防御方法表现出更强的鲁棒性。值得注意的是,AdvDiffVLM 可以以黑盒方式成功攻击商业 VLM,包括 GPT-4V。

OneActor:通过集群条件指导生成一致的角色

分类: 计算机视觉和模式识别, 人工智能

作者: Jiahao Wang, Caixia Yan, Haonan Lin, Weizhan Zhang

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10267v1

摘要: 文本到图像的扩散模型使艺术家能够生成高质量的图像。然而,其随机性使得艺术家无法创作出同一角色的一致图像。现有的方法试图应对这一挑战并以各种方式生成一致的内容。然而,它们要么依赖于外部数据,要么需要昂贵的扩散模型调整。对于这个问题,我们认为轻量级但复杂的指导足以发挥作用。针对这一点,我们率先将一致生成的目标形式化,推导了基于聚类的评分函数,并提出了一种新的范式——OneActor。我们设计了一个聚类条件模型,它结合了后验样本来引导去噪轨迹朝向目标聚类。为了克服一次性调整管道所面临的过度拟合挑战,我们设计了辅助组件来同时增强调整和调节推理。该技术后来被验证可以显着增强生成图像的内容多样性。综合实验表明,我们的方法优于各种基线,具有令人满意的字符一致性、卓越的提示一致性以及高图像质量。我们的方法比基于调整的基线至少快 4 倍。此外,据我们所知,我们首先证明语义空间与潜在空间剂量具有相同的插值性质。这一特性可以作为精细发电控制的另一个有前途的工具。

RefFusion:用于 3D 场景修复的参考自适应扩散模型

分类: 计算机视觉和模式识别

作者: Ashkan Mirzaei, Riccardo De Lutio, Seung Wook Kim, David Acuna, Jonathan Kelly, Sanja Fidler, Igor Gilitschenski, Zan Gojcic

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10765v1

摘要: 神经重建方法正在迅速成为 3D 场景的首选表示形式,但其有限的可编辑性仍然构成挑战。在这项工作中,我们提出了一种 3D 场景修复方法,即用所需内容连贯地替换重建场景的部分内容的任务。场景修复本质上是一项不适定的任务,因为存在许多解决方案可以合理地替换丢失的内容。因此,一个好的修复方法不仅应该能够实现高质量的合成,而且还应该能够实现高度的控制。基于这一观察,我们专注于对修复内容进行显式控制,并利用参考图像作为实现这一目标的有效手段。具体来说,我们介绍了 RefFusion,这是一种新颖的 3D 修复方法,基于图像修复扩散模型到给定参考视图的多尺度个性化。个性化有效地使先验分布适应目标场景,从而降低分数蒸馏目标的方差,从而显着提高细节。我们的框架在物体移除方面实现了最先进的结果,同时保持了高度的可控性。我们进一步证明了我们的公式在其他下游任务(例如对象插入、场景绘制和稀疏视图重建)上的通用性。

用于图像超分辨率的具有概率流采样的高效条件扩散模型

分类: 计算机视觉和模式识别, 机器学习

作者: Yutao Yuan, Chun Yuan

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10688v1

摘要: 图像超分辨率从根本上来说是一个不适定问题,因为一张低分辨率图像存在多个有效的高分辨率图像。基于扩散概率模型的超分辨率方法可以通过学习以低分辨率图像为条件的高分辨率图像的分布来处理不适定性质,避免了面向PSNR的方法中图像模糊的问题。然而,现有的基于扩散的超分辨率方法由于使用迭代采样,耗时较长,而且由于色偏等问题,生成图像的质量和一致性不太理想。在本文中,我们提出了用于图像超分辨率的带有概率流采样(ECDP)的高效条件扩散模型。为了减少时间消耗,我们设计了一种用于图像超分辨率的连续时间条件扩散模型,该模型能够使用概率流采样来高效生成。此外,为了提高生成图像的一致性,我们提出了一种降噪器网络的混合参数化,它在不同噪声尺度的数据预测参数化和噪声预测参数化之间进行插值。此外,我们设计了图像质量损失作为扩散模型分数匹配损失的补充,进一步提高了超分辨率的一致性和质量。在 DIV2K、ImageNet 和 CelebA 上进行的大量实验表明,我们的方法比现有的基于扩散的图像超分辨率方法实现了更高的超分辨率质量,同时具有更低的时间消耗。我们的代码可在 https://github.com/Yuan-Yutao/ECDP 获取。

StyleCity:通过渐进优化使用视觉和文本参考进行大规模 3D 城市场景风格化

分类: 计算机视觉和模式识别

作者: Yingshu Chen, Huajian Huang, Tuan-Anh Vu, Ka Chun Shum, Sai-Kit Yeung

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10681v1

摘要: 创建风格各异的大规模虚拟城市场景本身就具有挑战性。为了促进虚拟制作的原型并绕过对复杂材料和照明设置的需求,我们引入了第一个用于大型城市场景的视觉和文本驱动的纹理风格化系统,StyleCity。以图像和文本为参考,StyleCity 以语义感知的方式对大型城市场景的 3D 纹理网格进行风格化,并生成和谐的全向天空背景。为了实现这一目标,我们建议通过将 2D 视觉和文本先验转移到全局和局部的 3D 来风格化神经纹理场。在 3D 风格化过程中,我们逐步缩放不同级别的输入 3D 场景的计划训练视图,以保留高质量的场景内容。然后,我们通过调整样式图像的比例与训练视图的比例来全局优化场景样式。此外,我们通过语义感知风格损失来增强局部语义一致性,这对于照片真实感风格化至关重要。除了纹理风格化之外,我们还采用生成扩散模型来合成风格一致的全向天空图像,这提供了更身临其境的氛围并协助语义风格化过程。风格化的神经纹理场可以烘焙成任意分辨率的纹理,从而能够无缝集成到传统的渲染管道中,并显着简化虚拟生产原型制作过程。大量的实验证明了我们的风格化场景在定性和定量性能以及用户偏好方面的优越性。

Portrait3D:使用金字塔表示和 GAN 先验生成文本引导的高质量 3D 肖像

分类: 计算机视觉和模式识别

作者: Yiqian Wu, Hao Xu, Xiangjun Tang, Xien Chen, Siyu Tang, Zhebin Zhang, Chen Li, Xiaogang Jin

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10394v1

摘要: 现有的基于神经渲染的文本到 3D 肖像生成方法通常利用人体几何先验和扩散模型来获得指导。然而,仅仅依赖几何信息会带来诸如 Janus 问题、过饱和和过度平滑等问题。我们提出了 Portrait3D,一种新颖的基于神经渲染的框架,在实现文本到 3D 肖像生成之前具有新颖的联合几何外观,克服了上述问题。为了实现这一目标,我们训练了一个 3D 肖像生成器 3DPortraitGAN-Pyramid,作为稳健的先验。该生成器能够生成 360{\deg} 规范的 3D 肖像,作为后续基于扩散的生成过程的起点。为了减轻大多数 3D 感知 GAN 常用的基于特征图的 3D 表示中的高频信息引起的“网格状”伪影,我们将一种新颖的金字塔三网格 3D 表示集成到 3DPortraitGAN-Pyramid 中。为了从文本生成 3D 肖像,我们首先将与给定提示对齐的随机生成的图像投影到预先训练的 3DPortraitGAN-Pyramid 的潜在空间中。然后使用所得的潜在代码来合成金字塔三网格。从获得的金字塔三网格开始,我们使用分数蒸馏采样将扩散模型的知识蒸馏到金字塔三网格中。接下来,我们利用扩散模型来细化 3D 肖像的渲染图像,然后使用这些细化图像作为训练数据来进一步优化金字塔三网格,有效消除颜色不真实和不自然伪影的问题。我们的实验结果表明,Portrait3D 可以生成符合提示的逼真、高质量、规范的 3D 肖像。

OmniSSR:使用稳定扩散模型的零样本全向图像超分辨率

分类: 计算机视觉和模式识别, 图像和视频处理

作者: Runyi Li, Xuhan Sheng, Weiqi Li, Jian Zhang

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10312v1

摘要: 全向图像 (ODI) 通常用于现实世界的视觉任务,高分辨率 ODI 有助于提高相关视觉任务的性能。现有的ODI超分辨率方法大多采用端到端学习策略,导致生成图像的真实性较差,并且训练方法缺乏有效的域外泛化能力。以扩散模型为代表的图像生成方法为视觉任务提供了强大的先验,并已被证明可以有效地应用于图像恢复任务。利用稳定扩散(SD)模型的图像先验,我们实现了保真度和真实性的全向图像超分辨率,称为 OmniSSR。首先,我们将等距柱状投影(ERP)图像转换为切线投影(TP)图像,其分布近似于平面图像域。然后,我们使用 SD 对初始高分辨率结果进行迭代采样。在每次去噪迭代中,我们使用提出的 Octadecaplex 切线信息交互(OTII)和梯度分解(GD)技术进一步纠正和更新初始结果,以确保更好的一致性。最后,将TP图像变换回来,得到最终的高分辨率结果。我们的方法是零样本的,不需要训练或微调。我们的方法在两个基准数据集上的实验证明了我们提出的方法的有效性。

具有潜在扩散的长格式音乐生成

分类: 声音, 机器学习, 音频和语音处理

作者: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10301v1

摘要: 基于音频的音乐生成模型最近取得了长足的进步,但迄今为止尚未成功地生成具有连贯音乐结构的完整长度的音乐曲目。我们证明,通过在长时间上下文上训练生成模型,可以生成长达 4 分 45 秒的长音乐。我们的模型由一个在高度下采样的连续潜在表示(潜在速率为 21.5Hz)上运行的扩散变压器组成。根据音频质量和提示对齐的指标,它获得了最先进的世代,主观测试表明它可以产生具有连贯结构的完整长度的音乐。

in2IN:利用个人信息产生人类互动

分类: 计算机视觉和模式识别

作者: Pablo Ruiz Ponce, German Barquero, Cristina Palmero, Sergio Escalera, Jose Garcia-Rodriguez

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09988v1

摘要: 在机器人、游戏、动画和元宇宙等许多领域,根据文本描述生成人与人的运动交互是一个非常有用的应用。除了这种实用性之外,对高维人际动态进行建模也面临着巨大的困难。此外,正确捕捉人与人之间互动的多样性也面临着很多挑战。由于可用数据集和调节策略的限制,当前的方法产生的交互具有有限的人内动态多样性。为此,我们引入了in2IN,一种用于人与人运动生成的新颖扩散模型,该模型不仅以整体交互的文本描述为条件,还以参与交互的每个人所执行的动作的单独描述为条件。为了训练这个模型,我们使用大型语言模型来扩展 InterHuman 数据集和单独的描述。因此,in2IN 在 InterHuman 数据集中实现了最先进的性能。此外,为了增加现有交互数据集上的个人多样性,我们提出了 DualMDM,这是一种模型组合技术,它将 in2IN 生成的运动与在 HumanML3D 上预先训练的单人运动生成的运动相结合。因此,DualMDM 生成具有更高个体多样性的运动,并改善对人内动态的控制,同时保持人与人之间的连贯性。

用于训练超距离目标识别模型的基于扩散的数据生成器

分类: 计算机视觉和模式识别

作者: Eran Bamani, Eden Nissinman, Lisa Koenigsberg, Inbar Meir, Avishai Sintov

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09846v1

摘要: 物体识别通常由相机执行,是机器人完成复杂任务的基本要求。有些任务需要识别远离机器人相机的物体。一个具有挑战性的例子是人机交互中的超范围手势识别 (URGR),其中用户在距机器人最远 25 米的距离处展示指令手势。然而,训练模型来识别位于超范围内的几乎不可见的物体需要详尽地收集大量标记样本。合成训练数据集的生成是解决现实世界数据缺乏的最新解决方案,同时无法正确复制图像中远处物体的真实视觉特征。在这封信中,我们提出了基于扩散模型的超范围扩散(DUR)框架,以生成各种场景中远处物体的标记图像。 DUR 生成器接收所需的距离和类别(例如手势)并输出相应的合成图像。我们应用 DUR 来训练带有指令手势的 URGR 模型,其中手势手的细节很难区分。与其他类型的生成模型相比,DUR 在训练 URGR 模型时在保真度和识别成功率方面都表现出优越性。更重要的是,在有限数量的真实数据上训练 DUR 模型,然后使用它生成用于训练 URGR 模型的合成数据,其性能优于直接在真实数据上训练 URGR 模型。基于合成的 URGR 模型还在地面机器人基于手势的方向上进行了演示。

深入研究对比学习,通过扩散模型进行稳健的深度估计

分类: 计算机视觉和模式识别

作者: Jiyuan Wang, Chunyu Lin, Lang Nie, Kang Liao, Shuwei Shao, Yao Zhao

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09831v2

摘要: 最近,基于扩散的深度估计方法因其优雅的去噪模式和良好的性能而引起了广泛的关注。然而,它们在现实世界场景中普遍存在的不利条件下通常不可靠,例如下雨、下雪等。在本文中,我们提出了一种称为 D4RD 的新型鲁棒深度估计方法,其特点是为扩散模型量身定制的定制对比学习模式缓解复杂环境中的性能下降。具体来说,我们将知识蒸馏的力量融入到对比学习中,构建“三位一体”的对比方案。该方案利用前向扩散过程的采样噪声作为自然参考,引导不同场景中的预测噪声走向更稳定、更精确的最佳值。此外,我们扩展了噪声级别三位一体以涵盖更通用的特征和图像级别,建立多级对比度以在整个网络中分配鲁棒感知的负担。在解决复杂场景之前,我们通过三个简单而有效的改进来增强基线扩散模型的稳定性,这有助于收敛并消除深度异常值。大量实验表明,D4RD 在合成腐败数据集和真实天气条件方面超越了现有最先进的解决方案。 D4RD 的代码将可供进一步探索和采用。

使用受控视觉语言模型在野外恢复逼真的图像

分类: 计算机视觉和模式识别

作者: Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sjölund, Thomas B. Schön

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09732v1

摘要: 尽管扩散模型已成功应用于各种图像恢复(IR)任务,但它们的性能对训练数据集的选择很敏感。通常,在特定数据集中训练的扩散模型无法恢复具有分布外退化的图像。为了解决这个问题,这项工作利用强大的视觉语言模型和合成退化管道来学习野外图像恢复(野生红外)。更具体地说,所有低质量图像均使用合成降级管道进行模拟,其中包含多种常见降级,例如模糊、调整大小、噪声和 JPEG 压缩。然后,我们引入了对退化感知 CLIP 模型的稳健训练,以提取丰富的图像内容特征,以协助高质量图像恢复。我们的基础扩散模型是图像恢复 SDE (IR-SDE)。在此基础上,我们进一步提出了一种用于快速无噪声图像生成的后验采样策略。我们在合成和现实世界的退化数据集上评估我们的模型。此外,统一图像恢复任务的实验表明,所提出的后验采样提高了各种退化的图像生成质量。

神经 McKean-Vlasov 过程:扩散过程中的分布依赖性

分类: 机器学习, 人工智能, 机器学习

作者: Haoming Yang, Ali Hasan, Yuting Ng, Vahid Tarokh

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09402v1

摘要: McKean-Vlasov 随机微分方程 (MV-SDE) 通过对粒子密度施加依赖性,提供对无限数量相互作用粒子的行为的数学描述。因此,我们研究了在 SDE 参数化中明确包含分布信息的影响。我们提出了一系列用于表示 MV-SDE 的半参数方法,以及用于根据 MV-SDE 的属性从数据推断参数的相应估计器。我们分析了不同架构和估计器的特征,并考虑它们在相关机器学习问题中的适用性。我们根据经验比较不同架构和估计器在时间序列和概率建模的真实和合成数据集上的性能。结果表明,在 SDE 参数化中明确包含分布依赖性对于在可交换性假设下对具有交互作用的时态数据进行建模是有效的,同时由于与 MV- 相关的更丰富的概率流类别而保持标准 It^o-SDE 的强大性能SDE。

针对扩散模型的版权保护的嵌入水印的对抗示例

分类: 计算机视觉和模式识别, 人工智能

作者: Peifei Zhu, Tsubasa Takahashi, Hirokatsu Kataoka

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09401v1

摘要: 扩散模型(DM)在各种图像生成任务中表现出了卓越的能力。然而,人们越来越担心 DM 可能会被用来模仿未经授权的创作,从而引发版权问题。为了解决这个问题,我们提出了一种新颖的框架,在对抗性示例的生成中嵌入个人水印。此类示例可以强制 DM 生成带有可见水印的图像,并防止 DM 模仿未经授权的图像。我们构建了一个基于条件对抗性网络的生成器,并设计了三种损失(对抗性损失、GAN 损失和扰动损失)来生成具有微妙扰动但可以有效攻击 DM 以防止版权侵犯的对抗性示例。通过我们的方法训练个人水印生成器仅需要 2-3 分钟内的 5-10 个样本,一旦生成器经过训练,它就可以非常快地生成带有该水印的对抗性示例(每个图像 0.2 秒)。我们在各种条件图像生成场景中进行了广泛的实验。与生成具有混沌纹理的图像的现有方法相比,我们的方法在生成的图像上添加了可见的水印,这是指示版权侵犯的更直接的方式。我们还观察到,我们的对抗性示例在未知的生成模型中表现出良好的可迁移性。因此,这项工作提供了一种简单而强大的方法来保护版权免受基于 DM 的模仿。

使用文本引导扩散模型生成显着对象感知背景

分类: 计算机视觉和模式识别, 机器学习

作者: Amir Erfan Eshratifar, Joao V. B. Soares, Kapil Thadani, Shaunak Mishra, Mikhail Kuznetsov, Yueh-Ning Ku, Paloma de Juan

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.10157v1

摘要: 为显着对象生成背景场景在包括创意设计和电子商务在内的各个领域中发挥着至关重要的作用,因为它通过将主题集成到定制环境中来增强主题的呈现和背景。背景生成可以被视为文本条件外画的任务,其目标是将图像内容扩展到空白背景上的显着对象的边界之外。尽管用于文本引导修复的流行扩散模型也可以用于通过掩模反转进行修复,但它们被训练来填充图像的缺失部分,而不是将对象放置到场景中。因此,当用于背景创建时,修复模型经常会扩展显着对象的边界,从而改变对象的身份,我们将这种现象称为“对象扩展”。本文介绍了一种使用稳定扩散和 ControlNet 架构使修复扩散模型适应显着对象修复任务的模型。我们提出了一系列跨模型和数据集的定性和定量结果,包括新提出的衡量对象扩展的指标,该指标不需要任何人工标记。与稳定扩散 2.0 修复相比,我们提出的方法平均将对象扩展减少了 3.6 倍,并且跨多个数据集的标准视觉指标没有退化。

MaxFusion:文本到图像扩散模型中的即插即用多模态生成

分类: 计算机视觉和模式识别

作者: Nithin Gopalakrishnan Nair, Jeya Maria Jose Valanarasu, Vishal M Patel

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09977v1

摘要: 基于大型扩散的文本到图像(T2I)模型在文本到图像生成以及空间条件图像生成方面表现出了令人印象深刻的生成能力。对于大多数应用,我们可以使用配对数据端到端地训练模型,以获得逼真的生成质量。然而,为了添加额外的任务,人们通常需要使用所有模态的配对数据从头开始重新训练模型,以保持良好的生成性能。在本文中,我们解决了这个问题,并提出了一种新颖的策略,以最少的计算跨新任务扩展生成模型。在我们的实验中,我们发现扩散模型的中间特征图的方差图捕获了调节的强度。利用这些先验信息,我们提出了 MaxFusion,这是一种有效的策略,可以扩展文本到图像生成模型以适应新的模态条件。具体来说,我们结合了多个模型的对齐特征,从而带来了组合效果。我们的融合策略可以集成到现成的模型中,以增强其生成能力。

EdgeRelight360:用于实时设备上视频肖像重新照明的文本调节 360 度 HDR 图像生成

分类: 计算机视觉和模式识别

作者: Min-Hui Lin, Mahesh Reddy, Guillaume Berger, Michel Sarkis, Fatih Porikli, Ning Bi

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09918v1

摘要: 在本文中,我们提出了 EdgeRelight360,这是一种在移动设备上进行实时视频肖像重新照明的方法,利用文本条件生成 360 度高动态范围图像 (HDRI) 地图。我们的方法利用 HDR10 标准,提出了在 HDR 域中基于扩散的文本到 360 度图像生成。该技术有助于根据文本描述生成高质量、真实的照明条件,为肖像视频重新照明任务提供灵活性和控制。与之前的重新照明框架不同,我们提出的系统直接在设备上执行视频重新照明,从而能够使用真实的 360 度 HDRI 地图进行实时推理。这种设备上的处理既确保了隐私,又保证了低运行时间,从而可以对照明条件或用户输入的变化做出立即响应。我们的方法通过允许对照明条件进行动态、基于文本的控制,为实时视频应用(包括视频会议、游戏和增强现实)的新可能性铺平了道路。

魔衣:可控的服装驱动图像合成

分类: 计算机视觉和模式识别

作者: Weifeng Chen, Tao Gu, Yuhao Xu, Chengcai Chen

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09512v1

摘要: 我们提出了 Magic Clothing,这是一种基于潜在扩散模型(LDM)的网络架构,用于尚未探索的服装驱动图像合成任务。为了生成穿着具有多种文本提示的目标服装的定制角色,图像的可控性是最关键的问题,即保留服装细节并保持对文本提示的忠实。为此,我们引入了服装提取器来捕获详细的服装特征,并采用自注意力融合将其合并到预训练的 LDM 中,确保目标角色上的服装细节保持不变。然后,我们利用联合无分类器指导来平衡服装特征和文本提示对生成结果的控制。同时,所提出的服装提取器是一个适用于各种微调LDM的插件模块,它可以与ControlNet和IP-Adapter等其他扩展相结合,以增强生成角色的多样性和可控性。此外,我们设计了 Matched-Points-LPIPS (MP-LPIPS),这是一种用于评估目标图像与源服装的一致性的稳健指标。大量实验表明,我们的 Magic Clothing 在服装驱动图像合成的各种条件控制下实现了最先进的结果。我们的源代码可在 https://github.com/ShineChen1024/MagicClothing 获取。

PhyScene:用于实体 AI 的物理可交互 3D 场景合成

分类: 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者: Yandan Yang, Baoxiong Jia, Peiyuan Zhi, Siyuan Huang

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09465v1

摘要: 随着嵌入式人工智能(EAI)研究的最新发展,对高质量、大规模交互场景生成的需求不断增长。虽然场景合成中的现有方法优先考虑生成场景的自然性和真实性,但场景的物理合理性和交互性在很大程度上尚未得到探索。为了解决这一差异,我们引入了 PhyScene,这是一种致力于生成交互式 3D 场景的新颖方法,其特点是逼真的布局、铰接的对象以及为具体代理量身定制的丰富的物理交互性。基于用于捕获场景布局的条件扩散模型,我们设计了新颖的基于物理和交互性的引导机制,该机制集成了来自对象碰撞、房间布局和对象可达性的约束。通过大量的实验,我们证明 PhyScene 有效地利用这些引导功能进行物理交互的场景合成,大大优于现有的最先进的场景合成方法。我们的研究结果表明,PhyScene 生成的场景在促进交互环境中的代理获取多样化技能方面具有巨大的潜力,从而促进实体人工智能研究的进一步进步。项目网站:http://physcene.github.io。

通过 2D 监控实现生物医学体积的超分辨率

分类: 图像和视频处理, 计算机视觉和模式识别

作者: Cheng Jiang, Alexander Gedeon, Yiwei Lyu, Eric Landgraf, Yufeng Zhang, Xinhai Hou, Akhil Kondepudi, Asadur Chowdury, Honglak Lee, Todd Hollon

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09425v1

摘要: 体积生物医学显微镜有潜力增加从临床组织标本中提取的诊断信息,并提高人类病理学家和计算病理学模型的诊断准确性。不幸的是,将 3 维 (3D) 体积显微镜集成到临床医学中的障碍包括成像时间长、深度/z 轴分辨率差以及高质量体积数据量不足。利用丰富的高分辨率 2D 显微镜数据,我们引入了超分辨率掩模切片扩散 (MSDSR),它利用了生物样本所有空间维度上数据生成分布的固有等效性。这一内在特征允许在一个平面(例如 XY)的高分辨率图像上训练的超分辨率模型能够有效地推广到其他平面(XZ、YZ),从而克服了对方向的传统依赖。我们重点关注 MSDSR 在受激拉曼组织学 (SRH) 中的应用,SRH 是一种用于生物样本分析和术中诊断的光学成像方式,其特点是快速获取高分辨率 2D 图像,但光学 z 切片速度慢且成本高。为了评估 MSDSR 的功效,我们引入了新的性能指标 SliceFID,并通过广泛的评估证明了 MSDSR 相对于基线模型的优越性能。我们的研究结果表明,MSDSR 不仅显着提高了 3D 体数据的质量和分辨率,而且还解决了阻碍 3D 体显微镜在临床诊断和生物医学研究中更广泛应用的主要障碍。

GCC:生成校准聚类

分类: 计算机视觉和模式识别

作者: Haifeng Xia, Hai Huang, Zhengming Ding

发布时间: 2024-04-14

链接: http://arxiv.org/abs/2404.09115v1

摘要: 深度聚类作为无监督表示学习的一个重要分支,专注于将语义相似的样本嵌入到相同的特征空间中。这一核心需求激发了对比学习和子空间聚类的探索。然而,这些解决方案始终依赖于一个基本假设,即有足够的且类别平衡的样本来生成有效的高级表示。这个假设实际上过于严格,无法满足现实世界的应用。为了克服这一挑战,自然的策略是利用生成模型来增强大量实例。如何利用这些新颖的样本来有效地实现聚类性能的提高仍然是一个困难且尚未探索。在本文中,我们提出了一种新颖的生成校准聚类(GCC)方法,将特征学习和增强巧妙地融入聚类过程中。首先,我们开发了一种判别性特征对齐机制来发现真实样本和生成样本之间的内在关系。其次,我们设计了一种自我监督的度量学习来生成更可靠的聚类分配,以促进条件扩散的生成。三个基准的广泛实验结果验证了我们提出的方法相对于最先进方法的有效性和优势。

DreamScape:通过高斯泼溅联合相关建模创建 3D 场景

分类: 计算机视觉和模式识别

作者: Xuening Yuan, Hongyu Yang, Yueming Zhao, Di Huang

发布时间: 2024-04-14

链接: http://arxiv.org/abs/2404.09227v1

摘要: 通过将扩散模型从文本到图像生成的强大先验集成到 3D 领域,推动了文本到 3D 创建的最新进展。然而,生成具有多个实例和复杂排列的 3D 场景仍然具有挑战性。在这项研究中,我们提出了 DreamScape,一种仅根据文本描述创建高度一致的 3D 场景的方法,利用高斯泼溅的强大 3D 表示能力和大型语言模型 (LLM) 的复杂排列能力。我们的方法涉及用于场景表示的 3D 高斯指南 ($3{DG^2}$),由语义基元(对象)及其空间变换和使用 LLM 直接从文本提示导出的关系组成。这种组合表示允许对整个场景进行局部到全局的优化。在局部对象生成过程中定制渐进式尺度控制,确保不同大小和密度的对象适应场景,解决了后续全局优化阶段简单混合所带来的训练不稳定问题。为了减轻大语言模型先验的潜在偏差,我们在全局层面上对对象之间的碰撞关系进行建模,从而增强物理正确性和整体真实性。此外,为了生成广泛分布在场景中的雨和雪等普遍对象,我们引入了稀疏初始化和致密化策略。实验表明,DreamScape 具有很高的可用性和可控性,能够仅根据文本提示生成高保真 3D 场景,并与其他方法相比实现最先进的性能。

LoopAnimate:可循环显着对象动画

分类: 计算机视觉和模式识别, 人工智能

作者: Fanyi Wang, Peng Liu, Haotian Hu, Dan Meng, Jingwen Su, Jinjin Xu, Yanhao Zhang, Xiaoming Ren, Zhiwang Zhang

发布时间: 2024-04-14

链接: http://arxiv.org/abs/2404.09172v1

摘要: 基于扩散模型的视频生成研究进展迅速。然而,对象保真度和生成长度的限制阻碍了其实际应用。此外,动画壁纸等特定领域需要无缝循环,其中视频的第一帧和最后一帧无缝匹配。为了解决这些挑战,本文提出了 LoopAnimate,这是一种生成具有一致开始帧和结束帧的视频的新方法。为了增强对象保真度,我们引入了一个将多级图像外观和文本语义信息解耦的框架。基于图像到图像的扩散模型,我们的方法结合了来自输入图像的像素级和特征级信息,在扩散模型的不同位置注入图像外观和文本语义嵌入。现有的基于 UNet 的视频生成模型需要在训练期间输入整个视频,以同时对时间和位置信息进行编码。然而,由于 GPU 内存的限制,帧数通常限制为 16。为了解决这个问题,本文提出了一种逐步增加帧数并减少微调模块的三阶段训练策略。此外,我们还引入了时间增强运动模块 (TEMM),将时间和位置信息的编码容量扩展至 36 帧。提出的LoopAnimate,首次将基于UNet的视频生成模型的单遍生成长度扩展到35帧,同时保持高质量的视频生成。实验表明,LoopAnimate 在保真度和时间一致性等客观指标以及主观评估结果方面均实现了最先进的性能。

探索 Sim2Real 在驾驶数据合成中的生成式 AI

分类: 计算机视觉和模式识别

作者: Haonan Zhao, Yiting Wang, Thomas Bashford-Rogers, Valentina Donzella, Kurt Debattista

发布时间: 2024-04-14

链接: http://arxiv.org/abs/2404.09111v1

摘要: 数据集对于训练和测试车辆感知算法至关重要。然而,现实世界图像的收集和注释既耗时又昂贵。驾驶模拟器通过自动生成带有相应注释的各种驾驶场景提供了解决方案,但模拟与现实 (Sim2Real) 领域的差距仍然是一个挑战。虽然大多数生成人工智能 (AI) 遵循事实上的基于生成对抗网络 (GAN) 的方法,但最近新兴的扩散概率模型在缓解 Sim2Real 驱动数据合成的挑战方面尚未得到充分探索。为了探索性能,本文应用了三种不同的生成式人工智能方法,利用驾驶模拟器中的语义标签图作为创建真实数据集的桥梁。从图像质量和感知的角度对这些方法进行了比较分析。新的合成数据集(包括驾驶图像和自动生成的高质量注释)以低成本和高场景可变性生成。实验结果表明,虽然基于 GAN 的方法在提供手动注释标签时擅长生成高质量图像,但在使用模拟器生成的标签时,ControlNet 生成的合成数据集具有更少的伪影和更高的结构保真度。这表明基于扩散的方法可以提供更高的稳定性和解决 Sim2Real 挑战的替代方法。

从扩散桥模型角度重新思考迭代立体匹配

分类: 计算机视觉和模式识别, 人工智能

作者: Yuguang Shi

发布时间: 2024-04-13

链接: http://arxiv.org/abs/2404.09051v1

摘要: 最近,基于迭代的立体匹配显示出了巨大的潜力。然而,这些模型使用 RNN 变体优化视差图。离散优化过程带来了信息丢失的挑战,这限制了生成的视差图中可以表达的细节水平。为了解决这些问题,我们提出了一种新颖的训练方法,将扩散模型纳入迭代优化过程。我们设计了一个基于时间的门控循环单元(T-GRU)来关联时间和视差输出。与标准循环单元不同,我们使用代理注意力来生成更具表现力的特征。我们还设计了一个基于注意力的上下文网络来捕获大量的上下文信息。在多个公共基准测试上的实验表明,我们已经实现了有竞争力的立体匹配性能。我们的模型在场景流数据集中排名第一,与竞争方法相比,实现了超过 7% 的改进,并且只需要 8 次迭代即可实现最先进的结果。

扩散模型与遥感的结合:原理、方法和观点

分类: 计算机视觉和模式识别

作者: Yidan Liu, Jun Yue, Shaobo Xia, Pedram Ghamisi, Weiying Xie, Leyuan Fang

发布时间: 2024-04-13

链接: http://arxiv.org/abs/2404.08926v2

摘要: 作为深度生成模型的新兴进展,扩散模型在计算机视觉、自然语言处理和分子设计等许多领域取得了最先进的成果。遥感界也注意到了扩散模型的强大能力,并迅速将其应用到各种图像处理任务中。鉴于遥感领域扩散模型研究的迅速增加,有必要对现有基于扩散模型的遥感论文进行全面梳理,以帮助研究人员认识到扩散模型的潜力,并为进一步探索提供一些方向。具体而言,本文首先介绍了扩散模型的理论背景,然后系统回顾了扩散模型在遥感中的应用,包括图像生成、增强和解释。最后,对现有遥感扩散模型的局限性和值得进一步探索的研究方向进行了讨论和总结。

生成扩散模型的理论研究:概述

分类: 机器学习, 人工智能, 计算机视觉和模式识别

作者: Melike Nur Yeğin, Mehmet Fatih Amasyalı

发布时间: 2024-04-13

链接: http://arxiv.org/abs/2404.09016v1

摘要: 生成扩散模型在许多领域取得了巨大成功,具有强大的理论背景。他们将数据分布转换为噪声,然后将噪声去除以获得类似的分布。现有的许多评论都集中在特定的应用领域,而没有集中于算法的研究。与他们不同的是,我们研究了生成扩散模型的理论发展。这些方法主要分为两种:基于训练和基于采样。意识到这一点使我们能够对未来取得新进展的研究人员进行清晰易懂的分类。

量化扩散模型图像生成一致性的语义方法

分类: 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习

作者: Brinnae Bent

发布时间: 2024-04-12

链接: http://arxiv.org/abs/2404.08799v1

摘要: 在这项研究中,我们确定了对扩散模型中图像生成的可重复性或一致性的可解释的定量评分的需求。我们提出了一种语义方法,使用成对平均 CLIP(对比语言图像预训练)分数作为我们的语义一致性分数。我们应用这个指标来比较两种最先进的开源图像生成扩散模型,Stable Diffusion XL 和 PixArt-{\alpha},我们发现模型的语义一致性分数之间存在统计上的显着差异。所选模型的语义一致性评分与聚合的人工注释之间的一致性为 94%。我们还探讨了 SDXL 和 LoRA 微调版本的 SDXL 的一致性,发现微调模型在生成的图像中具有显着更高的语义一致性。这里提出的语义一致性分数提供了图像生成对齐的衡量标准,有助于评估特定任务的模型架构,并有助于做出有关模型选择的明智决策。

使用基础扩散模型的有损图像压缩

分类: 图像和视频处理, 计算机视觉和模式识别

作者: Lucas Relic, Roberto Azevedo, Markus Gross, Christopher Schroers

发布时间: 2024-04-12

链接: http://arxiv.org/abs/2404.08580v1

摘要: 在图像压缩领域结合扩散模型有可能产生真实且详细的重建,特别是在极低的比特率下。以前的方法侧重于使用扩散模型作为对调节信号中的量化误差具有鲁棒性的表达解码器,但以这种方式获得有竞争力的结果需要昂贵的扩散模型训练以及由于迭代生成过程而需要较长的推理时间。在这项工作中,我们将消除量化误差作为一项去噪任务,使用扩散来恢复传输图像潜伏中丢失的信息。我们的方法允许我们执行不到 10% 的完整扩散生成过程,并且不需要对扩散模型进行架构更改,从而能够使用基础模型作为强大的先验,而无需对主干进行额外的微调。我们提出的编解码器在定量真实性指标方面优于以前的方法,并且我们验证了我们的重建在质量上受到最终用户的青睐,即使其他方法使用两倍的比特率也是如此。

OpenBias:文本到图像生成模型中的开放集偏差检测

分类: 计算机视觉和模式识别, 人工智能

作者: Moreno D'Incà, Elia Peruzzo, Massimiliano Mancini, Dejia Xu, Vidit Goel, Xingqian Xu, Zhangyang Wang, Humphrey Shi, Nicu Sebe

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07990v1

摘要: 文本到图像的生成模型正变得越来越流行并且可供公众使用。随着这些模型的大规模部署,有必要深入研究其安全性和公平性,以免传播和延续任何形式的偏见。然而,现有的工作侧重于检测先验定义的封闭偏差集,将研究限制在众所周知的概念上。在本文中,我们解决了文本到图像生成模型中开放集偏差检测的挑战,提出了 OpenBias,这是一种新的管道,可以不可知地识别和量化偏差的严重性,而无需访问任何预编译集。 OpenBias 分为三个阶段。在第一阶段,我们利用大型语言模型(LLM)来提出给定一组标题的偏差。其次,目标生成模型使用同一组标题生成图像。最后,视觉问答模型认识到先前提出的偏差的存在和程度。我们研究稳定扩散 1.5、2 和 XL 的行为,强调以前从未研究过的新偏差。通过定量实验,我们证明 OpenBias 与当前的闭集偏差检测方法和人类判断一致。

重新思考文本到图像生成模型时代的艺术版权侵权

分类: 计算机视觉和模式识别, 人工智能

作者: Mazda Moayeri, Samyadeep Basu, Sriram Balasubramanian, Priyatham Kattakinda, Atoosa Chengini, Robert Brauneis, Soheil Feizi

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.08030v1

摘要: 最近的文本到图像生成模型(例如稳定扩散)非常擅长模仿和生成受版权保护的内容,这引起了艺术家的担忧,他们的独特风格可能会被不当复制。理解生成模型如何复制“艺术风格”比复制单个图像更复杂,因为风格由一组元素(或签名)组成,这些元素经常在整个作品中共同出现,其中每件作品可能会有很大差异。在我们的论文中,我们首先将“艺术版权侵权”问题重新表述为图像集的分类问题,而不是探究图像方面的相似性。然后,我们介绍 ArtSavant,这是一种实用(即高效且易于理解)的工具,用于 (i) 通过将艺术家的独特风格与 WikiArt 策划的 372 名艺术家作品的参考数据集进行比较来确定艺术家的独特风格,以及 (ii) 识别是否识别出的风格会重新出现在生成的图像中。我们利用两种互补的方法对图像集进行艺术风格分类,包括 TagMatch,这是一种新颖的本质上可解释和可归因的方法,使其更适合非技术利益相关者(艺术家、律师、法官等)更广泛的使用。然后,我们利用 ArtSavant 进行了一项大规模的实证研究,以定量了解 3 种流行的文本到图像生成模型中艺术风格复制的流行情况。也就是说,在多产艺术家(包括许多著名艺术家)的数据集中,只有 20% 的艺术家的风格似乎存在通过当今流行的文本到图像生成模型的简单提示而被复制的风险。

ControlNet++:通过高效的一致性反馈改进条件控制

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Ming Li, Taojiannan Yang, Huafeng Kuang, Jie Wu, Zhaoning Wang, Xuefeng Xiao, Chen Chen

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07987v1

摘要: 为了增强文本到图像扩散模型的可控性,ControlNet 等现有工作结合了基于图像的条件控制。在本文中,我们揭示了现有方法在生成与图像条件控制一致的图像方面仍然面临重大挑战。为此,我们提出了 ControlNet++,这是一种新颖的方法,通过显式优化生成图像和条件控制之间的像素级循环一致性来改进可控生成。具体来说,对于输入条件控制,我们使用预训练的判别奖励模型来提取生成图像的相应条件,然后优化输入条件控制和提取条件之间的一致性损失。一种简单的实现是从随机噪声生成图像,然后计算一致性损失,但这种方法需要存储多个采样时间步长的梯度,从而导致相当多的时间和内存成本。为了解决这个问题,我们引入了一种有效的奖励策略,通过添加噪声故意干扰输入图像,然后使用单步去噪图像进行奖励微调。这避免了与图像采样相关的大量成本,从而可以更有效地进行奖励微调。大量实验表明ControlNet++显着提高了各种条件控制下的可控性。例如,在分割掩模、艺术线条边缘和深度条件方面,它比 ControlNet 分别提高了 7.9% mIoU、13.4% SSIM 和 7.6% RMSE。

通过扩散排名查看 3D 字幕的选择

分类: 计算机视觉和模式识别

作者: Tiange Luo, Justin Johnson, Honglak Lee

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07984v1

摘要: 可扩展的注释方法对于构建广泛的 3D 文本数据集、促进更广泛的应用至关重要。然而,现有的方法有时会导致生成幻觉字幕,从而损害字幕质量。本文探讨了 3D 对象字幕中的幻觉问题,重点关注 Cap3D 方法,该方法将 3D 对象渲染为 2D 视图,以便使用预训练模型进行字幕制作。我们指出了一个主要挑战:3D 对象的某些渲染视图是非典型的,偏离标准图像字幕模型的训练数据并导致幻觉。为了解决这个问题,我们提出了 DiffuRank,这是一种利用预先训练的文本转 3D 模型来评估 3D 对象与其 2D 渲染视图之间的对齐情况的方法,其中高度对齐的视图密切代表了对象的特征。通过对所有渲染视图进行排名并将排名靠前的视图输入 GPT4-Vision,我们增强了字幕的准确性和细节,从而能够校正 Cap3D 数据集中的 20 万个字幕,并将其扩展到 Objaverse 和 Objaverse-XL 数据集中的 100 万个字幕。此外,我们通过将 DiffuRank 应用于视觉问答任务的预训练文本到图像模型来展示 DiffuRank 的适应性,它的性能优于 CLIP 模型。

驯服文本到 360° 全景图像生成的稳定扩散

分类: 计算机视觉和模式识别

作者: Cheng Zhang, Qianyi Wu, Camilo Cruz Gambardella, Xiaoshui Huang, Dinh Phung, Wanli Ouyang, Jianfei Cai

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07949v1

摘要: 生成模型,例如稳定扩散,可以根据文本提示创建逼真的图像。然而,从文本生成 360 度全景图像仍然是一个挑战,特别是由于缺乏配对的文本-全景数据以及全景和透视图像之间的域差距。在本文中,我们介绍了一种名为 PanFusion 的新型双分支扩散模型,用于根据文本提示生成 360 度图像。我们利用稳定扩散模型作为一个分支来提供自然图像生成的先验知识,并将其注册到另一个全景分支以生成整体图像。我们提出了一种具有投影意识的独特交叉注意机制,以最大限度地减少协作去噪过程中的失真。我们的实验验证了 PanFusion 超越了现有方法,并且由于其双分支结构,可以集成额外的约束,例如定制全景输出的房间布局。代码可在 https:// Chengzag.github.io/publication/panfusion 获取。

扩散模型概述:应用、引导生成、统计率和优化

分类: 机器学习, 统计理论, 机器学习, 统计理论

作者: Minshuo Chen, Song Mei, Jianqing Fan, Mengdi Wang

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07771v1

摘要: 扩散模型是一种强大且通用的生成人工智能技术,在计算机视觉、音频、强化学习和计算生物学领域取得了巨大成功。在这些应用中,扩散模型提供灵活的高维数据建模,并充当采样器,用于在任务所需属性的主动指导下生成新样本。尽管取得了显着的实证成功,但扩散模型的理论非常有限,可能会减慢进一步利用和改进扩散模型的原则性方法创新。在本文中,我们回顾了扩散模型的新兴应用,了解它们在各种控制下的样本生成。接下来,我们概述现有的扩散模型理论,涵盖其统计特性和采样能力。我们采用渐进式的例程,从无条件扩散模型开始,然后连接到有条件的对应模型。此外,我们回顾了通过条件扩散模型进行高维结构化优化的新途径,其中将搜索解决方案重新表述为条件采样问题并通过扩散模型来解决。最后,我们讨论扩散模型的未来方向。本文的目的是为激发扩散模型的前瞻性理论和方法提供全面的理论展示。

使用深度学习文本到图像模型生成合成卫星图像——监测和验证的技术挑战和影响

分类: 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习

作者: Tuong Vy Nguyen, Alexander Glaser, Felix Biessmann

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07754v1

摘要: 新颖的深度学习(DL)架构已经达到了可以生成数字媒体的水平,包括逼真的图像,这些媒体很难与真实数据区分开来。这些技术已被用于生成机器学习 (ML) 模型的训练数据,DALL-E 2、Imagen 和 Stable Diffusion 等大型文本到图像模型在逼真的高分辨率图像生成方面取得了显着的成果。鉴于这些发展,监测和验证中的数据真实性问题值得认真、系统地分析:合成图像的真实性如何?它们的生成有多容易?它们对机器学习研究人员有多大用处,以及它们在开放科学方面的潜力是什么?在这项工作中,我们使用新颖的深度学习模型来探索如何使用条件机制创建合成卫星图像。我们研究合成卫星图像生成的挑战,并根据真实性和最先进的指标评估结果。此外,我们还研究了合成数据如何缓解遥感机器学习方法中数据的缺乏。最后,我们讨论合成卫星图像在监测和验证方面的影响。

CAT:用于个性化图像生成的对比适配器训练

分类: 计算机视觉和模式识别, 人工智能

作者: Jae Wan Park, Sang Hyun Park, Jun Young Koh, Junha Lee, Min Song

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07554v1

摘要: 各种适配器的出现,包括自然语言处理领域应用的低秩适应(LoRA),使得扩散模型能够以低成本个性化图像生成。然而,由于数据集有限、正则化和计算资源短缺等各种挑战,适配器训练常常导致结果不理想,导致主干模型先验知识的损坏。众所周知的现象之一是对象生成中多样性的丧失,尤其是在同一类中,这导致生成几乎相同的对象,但变化很小。这对发电能力提出了挑战。为了解决这个问题,我们提出了对比适配器训练(CAT),这是一种简单而有效的策略,通过应用 CAT 损失来增强适配器训练。当模型启动适配器时,我们的方法有助于保存基本模型的原始知识。此外,我们引入知识保存分数(KPS)来评估CAT保留先前信息的能力。我们定性和定量地比较了 CAT 的改进。最后,我们提到了CAT在多概念适配和优化方面的可能性。

文本到图像扩散模型中基于对象条件能量的注意力图对齐

分类: 计算机视觉和模式识别

作者: Yasi Zhang, Peiyu Yu, Ying Nian Wu

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07389v1

摘要: 文本到图像的扩散模型在生成高质量文本引导图像方面取得了巨大成功。然而,这些模型可能仍然无法在语义上将生成的图像与提供的文本提示对齐,从而导致诸如错误的属性绑定和/或灾难性的对象忽略等问题。考虑到文本提示背后普遍存在的面向对象结构,我们引入了一种新颖的对象条件基于能量的注意力图对齐(EBAMA)方法来解决上述问题。我们表明,借助负采样技术,通过近似最大化 $z$ 参数化的基于能量的模型的对数似然,自然会出现以对象为中心的属性绑定损失。我们进一步提出了一种以对象为中心的强度正则化器,以防止对象注意力过度转向其属性。在几个具有挑战性的基准上进行的广泛的定性和定量实验(包括人类评估)证明了我们的方法比以前的强大同行具有优越的性能。通过更好对齐的注意力图,我们的方法在进一步增强扩散模型的文本控制图像编辑能力方面显示出巨大的希望。

GoodDrag:使用扩散模型进行拖动编辑的良好实践

分类: 计算机视觉和模式识别, 人工智能, 图形, 机器学习, 多媒体

作者: Zewei Zhang, Huan Liu, Jun Chen, Xiangyu Xu

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07206v1

摘要: 在本文中,我们介绍了 GoodDrag,这是一种提高拖动编辑稳定性和图像质量的新颖方法。与与累积扰动作斗争并经常导致失真的现有方法不同,GoodDrag 引入了 AlDD 框架,该框架在扩散过程中交替进行拖动和去噪操作,有效提高了结果的保真度。我们还提出了一种保留信息的运动监督操作,该操作保留了起点的原始特征,以实现精确操作和减少伪影。此外,我们还通过引入新的数据集 Drag100 并利用大型多模态模型开发专用的质量评估指标、拖动准确度指数和 Gemini 分数,为拖动编辑的基准测试做出贡献。大量的实验表明,所提出的 GoodDrag 在定性和定量上都优于最先进的方法。项目页面为https://gooddrag.github.io。

RealmDreamer:具有修复和深度扩散的文本驱动 3D 场景生成

分类: 计算机视觉和模式识别, 人工智能, 图形, 机器学习

作者: Jaidev Shriram, Alex Trevithick, Lingjie Liu, Ravi Ramamoorthi

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07199v1

摘要: 我们介绍 RealmDreamer,这是一种根据文本描述生成通用前向 3D 场景的技术。我们的技术优化了 3D 高斯泼溅表示以匹配复杂的文本提示。我们通过利用最先进的文本到图像生成器来初始化这些图,将它们的样本提升为 3D,并计算遮挡体积。然后,我们使用图像条件扩散模型将这种跨多个视图的表示优化为 3D 修复任务。为了学习正确的几何结构,我们通过对修复模型中的样本进行调节来合并深度扩散模型,从而提供丰富的几何结构。最后,我们使用图像生成器中的锐化样本对模型进行微调。值得注意的是,我们的技术不需要视频或多视图数据,并且可以合成由多个对象组成的各种不同风格的高质量 3D 场景。其通用性还允许从单个图像进行 3D 合成。

InstantMesh:使用稀疏视图大型重建模型从单个图像高效生成 3D 网格

分类: 计算机视觉和模式识别

作者: Jiale Xu, Weihao Cheng, Yiming Gao, Xintao Wang, Shenghua Gao, Ying Shan

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07191v2

摘要: 我们推出了 InstantMesh,这是一种用于从单个图像即时生成 3D 网格的前馈框架,具有最先进的生成质量和显着的训练可扩展性。通过协同现成的多视图扩散模型和基于 LRM 架构的稀疏视图重建模型的优势,InstantMesh 能够在 10 秒内创建多样化的 3D 资产。为了提高训练效率并利用更多的几何监督,例如深度和法线,我们将可微等值面提取模块集成到我们的框架中,并直接优化网格表示。公共数据集上的实验结果表明,InstantMesh 在定性和定量上都显着优于其他最新的图像到 3D 基线。我们发布InstantMesh的所有代码、权重和演示,旨在为3D生成AI社区做出实质性贡献,为研究人员和内容创作者赋能。

DreamScene360:使用全景高斯泼溅生成无约束文本到 3D 场景

分类: 计算机视觉和模式识别, 人工智能

作者: Shijie Zhou, Zhiwen Fan, Dejia Xu, Haoran Chang, Pradyumna Chari, Tejas Bharadwaj, Suya You, Zhangyang Wang, Achuta Kadambi

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.06903v1

摘要: 对虚拟现实应用程序日益增长的需求凸显了制作沉浸式 3D 资产的重要性。我们提出了一个文本到 3D 360$^{\circ}$ 场景生成管道,可以在几分钟内为野外环境创建全面的 360$^{\circ}$ 场景。我们的方法利用 2D 扩散模型的生成能力并迅速自我完善,以创建高质量且全局一致的全景图像。该图像充当初步的“平面”(2D) 场景表示。随后,它被提升为 3D 高斯,采用喷射技术来实现实时探索。为了产生一致的 3D 几何形状,我们的管道通过将 2D 单目深度对齐到全局优化的点云来构造空间相干结构。该点云用作 3D 高斯质心的初始状态。为了解决单视图输入中固有的隐形问题,我们对合成和输入相机视图施加语义和几何约束作为正则化。这些指导高斯的优化,帮助重建未见过的区域。总之,我们的方法在 360$^{\circ}$ 视角内提供了全球一致的 3D 场景,与现有技术相比,提供了增强的沉浸式体验。项目网站:http://dreamscene360.github.io/

城市建筑师:具有布局优先权的可操纵 3D 城市场景生成

分类: 计算机视觉和模式识别

作者: Fan Lu, Kwan-Yee Lin, Yan Xu, Hongsheng Li, Guang Chen, Changjun Jiang

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.06780v1

摘要: 文本到 3D 生成通过大规模文本到图像扩散模型取得了显着的成功。然而,还没有将这种方法扩展到城市规模的范式。城市场景具有元素众多、排列关系错综复杂、规模庞大的特点,这给模糊文本描述的可解释性和有效模型优化带来了巨大的障碍。在这项工作中,我们通过将组合 3D 布局表示引入文本到 3D 范式来克服限制,作为额外的先验。它由一组具有简单几何结构和明确排列关系的语义基元组成,补充了文本描述并实现了可操纵的生成。在此基础上,我们提出了两项​​修改——(1)我们引入布局引导的变分分数蒸馏来解决模型优化的不足。它利用 3D 布局的几何和语义约束来调节分数蒸馏采样过程。 (2)为了处理城市场景的无界性质,我们用可扩展哈希网格结构来表示3D场景,逐步适应城市场景规模的不断增长。大量实验证实了我们的框架首次将文本到 3D 生成扩展到覆盖超过 1000m 驾驶距离的大规模城市场景的能力。我们还展示了各种场景编辑演示,展示了可引导城市场景生成的强大功能。网站:https://urbanarchitect.github.io。

DiffusionDialog:具有潜在空间的多样化对话生成的扩散模型

分类: 计算和语言, 人工智能

作者: Jianxiang Xiang, Zhenhua Liu, Haodong Liu, Yin Bai, Jia Cheng, Wenliang Chen

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.06760v1

摘要: 在现实生活中的对话中,内容是多种多样的,并且存在需要多样化生成的一对多问题。先前的研究试图引入离散或基于高斯的连续潜变量来解决一对多问题,但多样性有限。最近,扩散模型在计算机视觉方面取得了突破,在自然语言处理方面也做出了一些尝试。在本文中,我们提出了 DiffusionDialog,这是一种借助扩散模型来增强对话生成多样性的新方法。在我们的方法中,我们将连续潜在变量引入扩散模型。在对话任务中使用潜在变量的问题是如何构建潜在空间的有效先验和推理过程以获得给定上下文的正确潜在变量。通过结合编码器和基于潜在的扩散模型,我们将响应的潜在表示在连续空间中编码为先验,而不是固定的高斯分布或简单的离散分布。然后,我们通过扩散模型逐步去噪来推断潜在的。实验结果表明,我们的模型极大地增强了对话响应的多样性,同时保持了连贯性。此外,在进一步分析中,我们发现我们的扩散模型实现了很高的推理效率,这是在自然语言处理中应用扩散模型的主要挑战。

潜在扩散模型的变相版权侵权

分类: 机器学习, 密码学和安全

作者: Yiwei Lu, Matthew Y. R. Yang, Zuoqiu Liu, Gautam Kamath, Yaoliang Yu

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.06737v2

摘要: 当生成模型生成的样本与其在训练阶段访问的某些受版权保护的数据基本相似时,可能会发生版权侵权。访问的概念通常是指将受版权保护的样本直接包含在训练数据集中,人们可以检查这些样本以识别侵权行为。我们认为,这种视觉审核在很大程度上忽视了隐藏的版权侵权,即人们构建了一种看起来与受版权保护的样本截然不同的伪装,但仍然会产生在其上训练潜在扩散模型的效果。这种伪装只需要间接访问受版权保护的材料,并且无法在视觉上区分,从而轻松绕过当前的审计工具。在本文中,我们通过揭示伪装生成算法、伪装的揭露,以及重要的是如何检测它们以增强现有工具箱,更好地理解这种伪装的版权侵权。此外,我们引入了更广泛的确认概念来理解这种间接访问。

SafeGen:减少文本到图像模型中不安全内容的生成

分类: 计算机视觉和模式识别, 人工智能, 计算和语言, 密码学和安全

作者: Xinfeng Li, Yuchen Yang, Jiangyi Deng, Chen Yan, Yanjiao Chen, Xiaoyu Ji, Wenyuan Xu

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.06666v1

摘要: 近年来,文本到图像(T2I)模型,例如稳定扩散,在从文本描述生成高质量图像方面表现出了卓越的性能。然而,文本到图像模型可能会被欺骗生成不安全工作(NSFW)内容,特别是在性场景中。现有的对策主要集中在过滤不适当的输入和输出,或抑制不适当的文本嵌入,这可以阻止明确的 NSFW 相关内容(例如,裸体或性感),但仍然可能容易受到看似无辜但恶意的对抗性提示输入的影响。在本文中,我们提出了 SafeGen,这是一个框架,可以通过文本到图像模型以与文本无关的方式减少不安全内容的生成。关键思想是从模型中消除不安全的视觉表示,无论文本输入如何。通过这种方式,文本到图像模型可以抵抗对抗性提示,因为不安全的视觉表示从内部被阻挡。对四个数据集进行的广泛实验证明了 SafeGen 在减少不安全内容生成同时保留良性图像的高保真度方面的有效性。 SafeGen 的性能优于八种最先进的基线方法,并实现了 99.1% 的色情内容删除性能。此外,我们构建的对抗性提示基准为未来开发和评估反 NSFW 生成方法提供了基础。

Magic-Boost:通过多视图条件扩散增强 3D 生成

分类: 计算机视觉和模式识别, 人工智能

作者: Fan Yang, Jianfeng Zhang, Yichun Shi, Bowen Chen, Chenxu Zhang, Huichao Zhang, Xiaofeng Yang, Jiashi Feng, Guosheng Lin

发布时间: 2024-04-09

链接: http://arxiv.org/abs/2404.06429v1

摘要: 受益于2D扩散模型的快速发展,3D内容创作最近取得了重大进展。一种有前景的解决方案是对预先训练的 2D 扩散模型进行微调,以利用其生成多视图图像的能力,然后通过快速 NeRF 或大型重建模型等方法将其提升为精确的 3D 模型。然而,由于不一致仍然存在并且生成的分辨率有限,此类方法的生成结果仍然缺乏复杂的纹理和复杂的几何形状。为了解决这个问题,我们提出了 Magic-Boost,一种多视图条件扩散模型,通过短暂的 SDS 优化 ($\sim15$min) 显着细化粗略的生成结果。与之前基于文本或单图像的扩散模型相比,Magic-Boost 表现出强大的能力,可以从伪合成多视图图像生成高度一致性的图像。它提供了精确的 SDS 指导,与输入图像的身份很好地匹配,丰富了初始生成结果的几何和纹理的局部细节。大量实验表明,Magic-Boost 极大地增强了粗略输入,并生成具有丰富几何和纹理细节的高质量 3D 资源。 (项目页面:https://magic-research.github.io/magic-boost/)

DiffHarmony:潜在扩散模型与图像协调的结合

分类: 计算机视觉和模式识别

作者: Pengfei Zhou, Fangxiang Feng, Xiaojie Wang

发布时间: 2024-04-09

链接: http://arxiv.org/abs/2404.06139v1

摘要: 图像协调涉及调整合成图像的前景以获得与背景的统一视觉一致性,可以将其概念化为图像到图像的转换任务。扩散模型最近促进了图像到图像翻译任务的快速发展。然而,从头开始训练扩散模型需要大量计算。微调预训练的潜在扩散模型需要处理图像压缩自动编码器引起的重建误差,使其不适合涉及像素级评估指标的图像生成任务。为了解决这些问题,在本文中,我们首先将预先训练的潜在扩散模型应用于图像协调任务,以生成和谐但可能模糊的初始图像。然后我们实施两种策略:在推理过程中使用更高分辨率的图像,并结合额外的细化阶段,以进一步提高最初协调图像的清晰度。 iHarmony4 数据集上的大量实验证明了我们提出的方法的优越性。代码和模型将在 https://github.com/nicecv/DiffHarmony 公开发布。

Hash3D:免训练加速 3D 生成

分类: 计算机视觉和模式识别

作者: Xingyi Yang, Xinchao Wang

发布时间: 2024-04-09

链接: http://arxiv.org/abs/2404.06091v1

摘要: 2D 扩散模型的采用显着推动了 3D 生成建模的发展。尽管取得了这些进展,但繁琐的优化过程本身却是效率的关键障碍。在本文中,我们介绍了 Hash3D,这是一种无需模型训练的 3D 生成通用加速器。 Hash3D 的核心是认识到特征图冗余在从相机位置和邻近的扩散时间步渲染的图像中普遍存在。通过跨相邻时间步长和摄像机角度有效地散列和重用这些特征图,Hash3D 基本上防止了冗余计算,从而加速了扩散模型在 3D 生成任务中的推理。我们通过基于自适应网格的哈希来实现这一点。令人惊讶的是,这种特征共享机制不仅加快了生成速度,还增强了合成 3D 对象的平滑度和视图一致性。我们的实验涵盖了 5 个文本转 3D 模型和 3 个图像转 3D 模型,展示了 Hash3D 加速优化的多功能性,将效率提高了 1.3 至 4 倍。此外,Hash3D 与 3D 高斯喷射的集成大大加快了 3D 模型的创建速度,将文本到 3D 的处理时间减少到大约 10 分钟,将图像到 3D 的转换时间减少到大约 30 秒。项目页面位于 https://adamdad.github.io/hash3D/。

通过局部扩散解决图像翻译中的结构性幻觉

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Seunghoi Kim, Chen Jin, Tom Diethe, Matteo Figini, Henry F. J. Tregidgo, Asher Mullokandov, Philip Teare, Daniel C. Alexander

发布时间: 2024-04-09

链接: http://arxiv.org/abs/2404.05980v2

摘要: 扩散模型的最新发展促进了条件图像生成,但它们在重建分布外(OOD)图像方面遇到了困难,例如医学图像中看不见的肿瘤,导致“图像幻觉”并有误诊的风险。我们假设这种幻觉是由条件图像中的局部 OOD 区域引起的。我们验证了对 OOD 区域进行分区并进行单独的图像生成可以减轻多个应用程序中的幻觉。由此,我们提出了一个免训练的扩散框架,通过多个局部扩散过程减少幻觉。我们的方法涉及 OOD 估计,然后是两个模块:“分支”模块在 OOD 区域内外本地生成,“融合”模块将这些预测集成为一个。我们的评估表明,我们的方法在定量和定性上减轻了基线模型的幻觉,在现实世界的医学和自然图像数据集中分别减少了 40% 和 25% 的误诊。它还演示了与各种预训练扩散模型的兼容性。

学习没有姿势注释的类别级对象姿势估计器

分类: 计算机视觉和模式识别

作者: Fengrui Tian, Yaoyao Liu, Adam Kortylewski, Yueqi Duan, Shaoyi Du, Alan Yuille, Angtian Wang

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05626v1

摘要: 3D 物体姿态估计是一项具有挑战性的任务。以前的工作总是需要数千张带注释姿势的物体图像来学习 3D 姿势对应关系,这对于标记来说既费力又耗时。在本文中,我们建议学习一个没有姿势注释的类别级 3D 对象姿势估计器。我们不使用手动注释的图像,而是利用扩散模型(例如,0-1-to-3)在受控的姿势差异下生成一组图像,并建议使用这些图像来学习我们的对象姿势估计器。直接使用原始扩散模型会导致图像带有噪声姿势和伪影。为了解决这个问题,首先,我们利用从专门设计的对比姿势学习中学习到的图像编码器来过滤不合理的细节并提取图像特征图。此外,我们提出了一种新颖的学习策略,允许模型从这些生成的图像集中学习对象姿势,而无需知道其规范姿势的对齐方式。实验结果表明,我们的方法具有从单镜头设置(作为姿势定义)进行类别级对象姿势估计的能力,同时在少镜头类别级对象姿势估计方面显着优于其他最先进的方法基准。

MoMA:用于快速生成个性化图像的多模态 LLM 适配器

分类: 计算机视觉和模式识别

作者: Kunpeng Song, Yizhe Zhu, Bingchen Liu, Qing Yan, Ahmed Elgammal, Xiao Yang

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05674v1

摘要: 在本文中,我们提出了 MoMA:一种开放词汇、免训练的个性化图像模型,具有灵活的零样本功能。随着基础文本到图像模型的快速发展,对强大的图像到图像转换的需求不断增长。为了满足这一需求,MoMA 专门研究主题驱动的个性化图像生成。利用开源的多模态大语言模型 (MLLM),我们训练 MoMA 充当特征提取器和生成器的双重角色。该方法有效地协同参考图像和文本提示信息以产生有价值的图像特征,促进图像扩散模型。为了更好地利用生成的特征,我们进一步引入了一种新颖的自注意力捷径方法,该方法可以有效地将图像特征转移到图像扩散模型,从而提高生成图像中目标对象的相似度。值得注意的是,作为一个免调整的即插即用模块,我们的模型仅需要单个参考图像,并且在生成具有高细节保真度、增强的身份保留和即时忠实度的图像方面优于现有方法。我们的工作是开源的,从而使人们能够普遍获得这些进步。

YaART:另一种 ART 渲染技术

分类: 计算机视觉和模式识别

作者: Sergey Kastryulin, Artem Konev, Alexander Shishenya, Eugene Lyapustin, Artem Khurshudov, Alexander Tselousov, Nikita Vinokurov, Denis Kuznedelev, Alexander Markovich, Grigoriy Livshits, Alexey Kirillov, Anastasiia Tabisheva, Liubov Chubarova, Marina Kaminskaia, Alexander Ustyuzhanin, Artemii Shvetsov, Daniil Shlenskii, Valerii Startsev, Dmitrii Kornilov, Mikhail Romanov, Artem Babenko, Sergei Ovcharenko, Valentin Khrulkov

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05666v1

摘要: 在快速发展的生成模型领域,高效且高保真的文本到图像扩散系统的开发代表了一个重要的前沿领域。本研究介绍了 YaART,这是一种新颖的生产级文本到图像级联扩散模型,使用人类反馈强化学习 (RLHF) 来符合人类偏好。在YaART的开发过程中,我们特别关注模型的选择和训练数据集大小,这些方面以前没有对文本到图像级联扩散模型进行系统研究。特别是,我们全面分析了这些选择如何影响训练过程的效率和生成图像的质量,这在实践中非常重要。此外,我们证明,在较小的高质量图像数据集上训练的模型可以成功地与在较大数据集上训练的模型竞争,从而建立更有效的扩散模型训练场景。从质量角度来看,与许多现有的最先进模型相比,YaART 始终受到用户的青睐。

一种免训练的即插即用稳定扩散水印框架

分类: 计算机视觉和模式识别

作者: Guokai Zhang, Lanjun Wang, Yuting Su, An-An Liu

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05607v1

摘要: 如今,稳定扩散 (SD) 模型系列因其高质量输出和可扩展性而受到关注。这也引发了社交媒体的安全担忧,因为恶意用户可以创建和传播有害内容。现有方法涉及训练组件或整个 SD,以在生成的图像中嵌入水印,以实现可追溯性和责任归属。然而,在人工智能生成内容(AIGC)时代,SD 的快速迭代使得水印模型的再训练成本高昂。为了解决这个问题,我们提出了一种用于 SD 的免培训即插即用水印框架。在不修改 SD 的任何组件的情况下,我们在潜在空间中嵌入了不同的水印,以适应去噪过程。我们的实验结果表明,我们的方法有效地协调了图像质量和水印不可见性。此外,它在各种攻击下表现稳健。我们还验证了我们的方法可以推广到 SD 的多个版本,甚至无需重新训练水印模型。

相关